BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース NVIDIAがAIをトレーニングするデータセットジェネレータDatasetGANを発表

NVIDIAがAIをトレーニングするデータセットジェネレータDatasetGANを発表

ブックマーク

原文(投稿日:2021/05/18)へのリンク

NVIDIAの研究者は、AIビジョンモデルをトレーニングするためのデータセットを作成する注釈付きの合成画像を生成するシステムであるDatasetGANを作成した。DatasetGANは、わずか16の人による注釈付き画像でトレーニングでき、100倍以上の注釈付き画像を必要とする完全な教師ありシステム (fully-supervised systems) と同様に機能する。

システムと実験は、次回のコンピュータビジョンとパターン認識カンファレンス (CVPR 2021) で発表される論文で説明された。DatasetGANは、写実的な画像の生成にNVIDIAのStyleGANテクノロジーを使用する。注釈付けする人が画像内のオブジェクトの一部に詳細なラベルを作成し、次にインタープリタがStyleGANの潜在空間から特徴ラベルを生成するためにこのデータでトレーニングされる。その結果、注釈とともに無限の数の画像を生成できるシステムが得られ、これらの画像は、任意のコンピュータービジョン (CV) システムのトレーニングデータセットとして使用できる。

敵対的生成ネットワーク (GAN) は、2つの深層学習モデルで構成されるシステムだ: 現実的なデータの作成を学習するジェネレーターと、実際のデータとジェネレーターの出力の区別を学習するディスクリミネーターだ。トレーニングの後、簡単にデータを生成するために、ジェネレーターを単独で使用されることがよくある。NVIDIAは、ビデオカンファレンスの帯域幅を削減するMaxineプラットフォームなど、いくつかのアプリケーションでGANを使用している。2019年、NVIDIAはStyleGANと呼ばれるGANを開発した。これは、人間の顔を写実的な画像で生成でき、人気のあるWebサイト This Person Does Not Exist で使用されている。昨年、NVIDIAは、カスタマイズ可能な画像のレンダリングを生成するために、必要なカメラ、テクスチャ、背景、およびその他のデータを入力として受け取ることができるStyleGANのバリエーションを開発した。

GANは、無限の数の固有の高品質画像を生成できるが、ほとんどのCVトレーニングアルゴリズムでは、画像内のオブジェクトについての情報で画像に注釈を付ける必要もある。最も人気のあるCVデータセットの1つであるImageNetは、AmazonのMechanical Turkを使用して画像にラベルを付けるために数万人の作業者を雇用したことで有名だ。作業者は1分あたり約5個のペースで画像に注釈を付けることができるが、画像は単一のオブジェクトの単純な写真だ。自動運転車で必要とされるような、より複雑なビジョンタスクでは、各ピクセルがオブジェクトの一部としてラベル付けされたセマンティックセグメンテーションを使用した複雑なシーンの画像が必要だ。NVIDIAの研究者によると「50のオブジェクトがある複雑なシーンにラベルを付けるには、30分から90分かかる可能性がある」。

DatasetGANに関するNVIDIAのインサイトは、ジェネレーターへの入力として使用される潜在空間には、生成された画像についてのセマンティック情報が含む必要があるため、画像の注釈マップを作成するために使用できるということだ。チームは、最初にいくつかの画像を生成し、それらに関連付けられた潜在的なベクトルを保存することにより、システムのトレーニングデータセットを作成した。生成された画像は人の作業者によって注釈が付けられ、潜在的なベクトルはトレーニングのためにこれらの注釈とペアにされた。次に、このデータセットを使用して、スタイルインタープリタとして使用される多層パーセプトロン (MLP) 分類器のアンサンブルをトレーニングした。分類器の入力は、各ピクセルを生成するためにGANによって生成された特徴ベクトルで構成され、出力は各ピクセルのラベルだ。たとえば、GANが人間の顔の画像を生成すると、インタプリタは頬、鼻、耳などの顔の部分を示すラベルを出力する。

研究者は、経験豊富な人の注釈者によってラベル付けされた生成された画像でインタープリタをトレーニングした。画像は各クラスの例が16〜40個の寝室、車、顔、鳥、猫の画像だ。次に、完全なDatasetGANシステムを画像データセットを生成し、それを使用して標準のCVモデルをトレーニングするために使用した。チームは、生成されたデータセットでトレーニングされたモデルのパフォーマンスを、現在の最先端の転送学習および半教師あり手法を使用してトレーニングされたベースラインモデルと比較するため、Celeb-AStanford Carsなどのいくつかの一般的なCVベンチマークを使用した。NVIDIAモデルは、同量の注釈付き画像が与えられた場合、すべてのベンチマークでベースラインを「大幅に」上回った。

AIをトレーニングするための合成データの使用は、データセットの作成に関連するコストと労力を削減するため、活発な研究のトピックだ。移動ロボットと自動運転車のトレーニングの一般的な手法の1つは、バーチャル環境ビデオゲームをデータソースとして使用することだ。2015年、マサチューセッツ大学ローウェル校の研究者は、クラウドソーシング (crowdsourced) のCADモデルを使用して画像分類器をトレーニングした。2017年、AppleはCVトレーニング用の合成画像の品質を向上させるためにGANを使用するシステムを開発したが、この手法ではピクセルレベルのセマンティックラベルは生成されなかった。

NVIDIAのStyleGANはオープンソースだが、DatasetGANのコードはリリースされていない。この作業に関するTwitterのディスカッションで、共著者のHuan Ling氏は、チームはリリースに取り組んでおり、今年のNeurIPSカンファレンスのデッドラインに間に合うことを望んでいると述べた。

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT