Googleが20億パラメータのAIビジョンモデルをトレーニング

原文(投稿日：2021/06/22)へのリンク

Google Brainの研究者は、20億個のパラメータを含む深層学習コンピュータビジョン（CV）モデルを発表した。このモデルは30億枚の画像でトレーニングされ、ImageNetで90.45％のトップの精度を達成し、新たに最先端の記録を打ち立てた。

チームは、arXivで公開された論文でモデルと実験について説明した。ViT-G/14と呼ばれるこのモデルは、Googleの最近のVision Transformers（ViT）に関する取り組みをベースとしている。ViT-G/14は、ImageNet、ImageNet-v2、VTAB-1kなど、いくつかのベンチマークで以前の最先端のソリューションを上回った。数ショットの画像認識タスクでは、精度の向上は5パーセントポイント以上であった。研究者はまた、アーキテクチャのスケーリング則を調査するために小さなバージョンのモデルをいくつかトレーニングした。そして、パフォーマンスが自然言語処理（NLP）タスクに使用されるTransformerモデルと同様にべき乗則関数に従うことに気が付いた。

2017年にGoogleの研究者によって最初に説明された、Transformerアーキテクチャは、NLPディープラーニングモデルのための主要な設計になっている。OpenAIのGPT-3は最も有名なものの1つである。昨年、OpenAIはこれらのモデルのスケーリングの法則を説明する論文を発表した。OpenAIは、多くの同様のモデルをさまざまなサイズでトレーニングし、トレーニングデータと計算能力の量を変えることにより、モデルの精度を推定するためのべき乗則関数を決定した。さらに、OpenAIは、大規模なモデルのパフォーマンスが向上するだけでなく、計算効率も向上することを発見した。

NLPモデルとは対照的に、ほとんどの最先端のCV深層学習モデルは畳み込みニューラルネットワーク（CNN）アーキテクチャを使っている。1989年に最初に説明されたアーキテクチャは、2012年にCNNモデルがImageNetチャレンジに勝利した後、優位となった。NLPスペースでのTransformerの最近の成功により、研究者はビジョンタスクでのパフォーマンスの調査を開始した。たとえば、OpenAIは最近、GPT-3に基づく画像生成システムを開発した。特にGoogleはこの分野で積極的に活動しており、独自のJFT-300Mデータセットを使って、2020年後半に6億パラメータのViTモデルをトレーニングしている。

新しいViT-G/14モデルは、データセットの更新されたバージョンであるJFT-3Bで事前トレーニングされている。JFT-3Bは30億近くの画像を含んでいる。研究チームは、ViTアーキテクチャをいくつか改善した。メモリ使用率を改善して、モデルを単一のTPUv3コアに適合させることができた。ViT-G/14と他の小型モデルのパフォーマンスを評価するために、チームは事前トレーニング済みモデルに対して、数ショットと微調整の両方の転送学習を実行した。チームはその結果を使って、NLPの法則と同様のスケーリングの法則を定めた。

計算、モデル、データをスケールアップさせると、べき乗則関数に従って、精度が向上する
小さいモデルでは精度がボトルネックになる可能性がある
大規模なモデルは、大規模なデータセットよるメリットがある

ImageNetリーダーボードには、現在ViT-G/14のスコアが最初にリスト化されている。次に高いスコアの8つのモデルもGoogleの研究者によって開発された。一方で、10位のモデルはFacebookによって開発された。Twitterでのディスカッションで、ユーザは、GoogleがViT-G/14のコードとモデルの重み付けをリリースする予定があるかどうかを尋ねた。研究チームのメンバーであるLucas Beyer氏は、次のように答えた。

重み付けは絶対にありません。それは内部データで訓練されます！コードについては良い質問です。公開されている元のViTコードに非常に近いため、計画していませんでしたが、新しい部品を追加するのはよいアイデアかもしれません。

Googleは、昨年の6億パラメーターViTモデルのコードと重み付けをGitHubでリリースした。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

エクスペディア、マイクロ・フロントエンドとGraphQL最適化でフライト検索を高速化

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

技術的負債を防ぎ、返済する方法：チームと技術リーダー、マネージャーができること

研究者らが、LLMジェイルブレイク攻撃の防御アルゴリズム"SafeDecoding"のオープンソース化を発表

OpenAI、"Transformer Debugger"ツールをリリース

RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

オラクル、ARMとKubernetes 1.28をサポートするOracle Cloud Native 1.8を発表

SUSE、Kubernetesとエッジ管理製品のアップグレードを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方