GoogleがコンピュータビジョンモデルのBig Transferをオープンソース化

原文(投稿日：2020/06/09)へのリンク

Google Brainは、ディープラーニングのコンピュータービジョンモデルであるBig Transfer（BiT）向けに事前トレーニング済みモデルと微調整コードをリリースした。このモデルは、公開されている一般的な画像データセットで事前にトレーニングされており、わずか数個のサンプルを微調整すると、いくつかのビジョンベンチマークで最先端のパフォーマンスと同等か上回ることができる。

論文の共著者であるLucas Beyer氏とAlexander Kolesnikov氏は、最近のブログ投稿で彼らの仕事の概要を説明した。深層学習ビジョンモデルのパフォーマンスを向上させるために、チームは大規模な事前トレーニングに時間をかけた。そして、モデルサイズ、データセットサイズ、トレーニング期間、正規化戦略、ハイパーパラメータの選択の影響を調査した。この作業の結果、チームはコンポーネントとトレーニングヒューリスティックの「レシピ」を開発した。これによって、ObjectNetデータセットの「前例のないトップ5の精度80.0％」など、さまざまなベンチマークで大きなパフォーマンスを達成した。Beyer氏とKolesnikov氏は述べている。

[Big Transfer]を使用すると、クラスごとにラベル付けされた画像がほんの一握りであっても、誰でも関心のあるタスクで最先端のパフォーマンスを実現できます。

深層学習モデルは、コンピュータービジョン、特に画像内のオブジェクトの認識において大きな進歩を遂げた。この成功の鍵の1つは、大規模なラベル付きデータセットが利用できたことにある。具体的には、画像のコレクションと、それに含まれるオブジェクトの対応するテキストの記述である。これらのデータセットは手動で作成する必要があり、人間の作業員が数千の画像のそれぞれにラベル付けする。たとえば、人気のあるImageNetデータセットには、21,000の異なるオブジェクトクラスを含む1,400万を超えるラベル付き画像が含まれている。ただし、画像は通常一般的なものであり、人、ペット、家庭用品などのありふれた対象物である。特殊なタスク、たとえば産業用ロボット用に同様の規模のデータセットを作成することは、法外に費用がかかったり、時間がかかる可能性がある。

この状況では、AIエンジニアは転移学習を適用することがよくある。これは、大規模な自然言語処理（NLP）モデルで一般的になっている戦略である。まず、ニューラルネットワークを使って、テストデータセットで特定のレベルのパフォーマンスを達成するまで、大規模な汎用データセットで事前トレーニングされる。次に、モデルは、より小さなタスク固有のデータセットで、時にはタスク固有のオブジェクトの1つの例で、微調整される。大規模なNLPモデルは、転送学習を使用して、新しい最先端のパフォーマンスレベルを定期的にセットする。

BiTの場合、Googleの研究者はResNet-v2ニューラルアーキテクチャを使用した。事前トレーニングデータセットサイズの影響を調査するために、チームは、異なるデータセットで事前トレーニングされた3つのモデルのグループに対して同じ実験をした。その3つは、ILSVRC-2012の128万枚の画像で事前トレーニングされたBiT-Sモデル、ImageNet-21kの14,20万枚の画像で事前トレーニングされたBiT-Mモデル、JFT-300Mの3億枚の画像で事前トレーニングされたBiT-Lモデルである。次に、モデルを微調整し、ILSVRC-2012、CIFAR-10/100、Oxford-IIIT Pet、Oxford Flowers-102などのいくつかの一般的なベンチマークで評価した。

チームは、実験から得られたいくつかの発見に言及した。まず、モデルサイズを大きくすることによるメリットは、小さなデータセットでは小さくなり、大きなデータセットで小さなモデルを事前トレーニングすることにはほとんどメリットがなかった。2つ目に、大規模モデルは、バッチ正規化と比較して、グループ正規化を使用した方がパフォーマンスが向上した。最後に、微調整中のコストのかかるハイパーパラメータ検索を回避するために、チームはBiT-HyperRuleと呼ばれるヒューリスティックを開発した。このヒューリスティックでは、「トレーニングスケジュールの長さ、解像度、およびMixUp正則化を使用するかどうか」を除くすべてのハイパーパラメータが固定されている。

Googleは、BiT-SおよびBiT-Mグループから最高のパフォーマンスを発揮する事前トレーニング済みモデルをリリースした。ただし、JFT-300Mデータセットに基づくBiT-Lモデルはリリースされていない。Hacker Newsのコメント投稿者は、JFT-300Mでトレーニングされたモデルはこれまでにリリースされていないと指摘した。あるコメント投稿者は、Facebookがリリースした、さらに大きなデータセットで事前トレーニングされたいくつかのモデルを指摘した。次のように言っている人もいる。

法的/著作権の問題がリリースを妨げるのではないかと思いました。モデルは派生作品であると主張しようとする人が常にいます。JFT-300Mの論文には、公共の再配布をカバーするライセンスがあることについては何も言及されていません。

微調整を残すのみのコードと、リリースされた事前トレーニング済みモデルを使用するためのとチュートリアルは、GitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

KubriX社が「アウト・オブ・ザ・ボックス」をコンセプトとした内部開発者プラットフォームを発表

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco