NVIDIAがAIをトレーニングするデータセットジェネレータDatasetGANを発表

原文(投稿日：2021/05/18)へのリンク

NVIDIAの研究者は、AIビジョンモデルをトレーニングするためのデータセットを作成する注釈付きの合成画像を生成するシステムであるDatasetGANを作成した。DatasetGANは、わずか16の人による注釈付き画像でトレーニングでき、100倍以上の注釈付き画像を必要とする完全な教師ありシステム (fully-supervised systems) と同様に機能する。

システムと実験は、次回のコンピュータビジョンとパターン認識カンファレンス (CVPR 2021) で発表される論文で説明された。DatasetGANは、写実的な画像の生成にNVIDIAのStyleGANテクノロジーを使用する。注釈付けする人が画像内のオブジェクトの一部に詳細なラベルを作成し、次にインタープリタがStyleGANの潜在空間から特徴ラベルを生成するためにこのデータでトレーニングされる。その結果、注釈とともに無限の数の画像を生成できるシステムが得られ、これらの画像は、任意のコンピュータービジョン (CV) システムのトレーニングデータセットとして使用できる。

敵対的生成ネットワーク (GAN) は、2つの深層学習モデルで構成されるシステムだ: 現実的なデータの作成を学習するジェネレーターと、実際のデータとジェネレーターの出力の区別を学習するディスクリミネーターだ。トレーニングの後、簡単にデータを生成するために、ジェネレーターを単独で使用されることがよくある。NVIDIAは、ビデオカンファレンスの帯域幅を削減するMaxineプラットフォームなど、いくつかのアプリケーションでGANを使用している。2019年、NVIDIAはStyleGANと呼ばれるGANを開発した。これは、人間の顔を写実的な画像で生成でき、人気のあるWebサイト This Person Does Not Exist で使用されている。昨年、NVIDIAは、カスタマイズ可能な画像のレンダリングを生成するために、必要なカメラ、テクスチャ、背景、およびその他のデータを入力として受け取ることができるStyleGANのバリエーションを開発した。

GANは、無限の数の固有の高品質画像を生成できるが、ほとんどのCVトレーニングアルゴリズムでは、画像内のオブジェクトについての情報で画像に注釈を付ける必要もある。最も人気のあるCVデータセットの1つであるImageNetは、AmazonのMechanical Turkを使用して画像にラベルを付けるために数万人の作業者を雇用したことで有名だ。作業者は1分あたり約5個のペースで画像に注釈を付けることができるが、画像は単一のオブジェクトの単純な写真だ。自動運転車で必要とされるような、より複雑なビジョンタスクでは、各ピクセルがオブジェクトの一部としてラベル付けされたセマンティックセグメンテーションを使用した複雑なシーンの画像が必要だ。NVIDIAの研究者によると「50のオブジェクトがある複雑なシーンにラベルを付けるには、30分から90分かかる可能性がある」。

DatasetGANに関するNVIDIAのインサイトは、ジェネレーターへの入力として使用される潜在空間には、生成された画像についてのセマンティック情報が含む必要があるため、画像の注釈マップを作成するために使用できるということだ。チームは、最初にいくつかの画像を生成し、それらに関連付けられた潜在的なベクトルを保存することにより、システムのトレーニングデータセットを作成した。生成された画像は人の作業者によって注釈が付けられ、潜在的なベクトルはトレーニングのためにこれらの注釈とペアにされた。次に、このデータセットを使用して、スタイルインタープリタとして使用される多層パーセプトロン (MLP) 分類器のアンサンブルをトレーニングした。分類器の入力は、各ピクセルを生成するためにGANによって生成された特徴ベクトルで構成され、出力は各ピクセルのラベルだ。たとえば、GANが人間の顔の画像を生成すると、インタプリタは頬、鼻、耳などの顔の部分を示すラベルを出力する。

研究者は、経験豊富な人の注釈者によってラベル付けされた生成された画像でインタープリタをトレーニングした。画像は各クラスの例が16〜40個の寝室、車、顔、鳥、猫の画像だ。次に、完全なDatasetGANシステムを画像データセットを生成し、それを使用して標準のCVモデルをトレーニングするために使用した。チームは、生成されたデータセットでトレーニングされたモデルのパフォーマンスを、現在の最先端の転送学習および半教師あり手法を使用してトレーニングされたベースラインモデルと比較するため、Celeb-AやStanford Carsなどのいくつかの一般的なCVベンチマークを使用した。NVIDIAモデルは、同量の注釈付き画像が与えられた場合、すべてのベンチマークでベースラインを「大幅に」上回った。

AIをトレーニングするための合成データの使用は、データセットの作成に関連するコストと労力を削減するため、活発な研究のトピックだ。移動ロボットと自動運転車のトレーニングの一般的な手法の1つは、バーチャル環境やビデオゲームをデータソースとして使用することだ。2015年、マサチューセッツ大学ローウェル校の研究者は、クラウドソーシング (crowdsourced) のCADモデルを使用して画像分類器をトレーニングした。2017年、AppleはCVトレーニング用の合成画像の品質を向上させるためにGANを使用するシステムを開発したが、この手法ではピクセルレベルのセマンティックラベルは生成されなかった。

NVIDIAのStyleGANはオープンソースだが、DatasetGANのコードはリリースされていない。この作業に関するTwitterのディスカッションで、共著者のHuan Ling氏は、チームはリリースに取り組んでおり、今年のNeurIPSカンファレンスのデッドラインに間に合うことを望んでいると述べた。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027