BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAIが画像生成用のGPT-3モデルを発表

OpenAIが画像生成用のGPT-3モデルを発表

ブックマーク

原文(投稿日:2021/02/02)へのリンク

OpenAIは、GPT-3に基づいて12BパラメーターAIモデルをトレーニングした。GPT-3では、テキストの説明から画像を生成することができる。説明では、オブジェクトの位置や画像の遠近法など、多くの独立した属性を指定できる。そして、現実の世界には存在しないオブジェクトの組み合わせを合成することもできる。

研究者のAditya Ramesh氏は、最近のブログ投稿でシステムとその機能の概要を説明した。このモデルは、GPT-3で使用されているTransformerアーキテクチャに基づいている。ただし、GPT-3とは異なり、モデル入力にはテキストだけでなく画像ピクセルも含まれる。それは、短いキャプションに基づいて、リアルな画像を生成することもできる。キャプションには、複数のオブジェクト、それらの色、テクスチャ、それぞれの位置、および照明やカメラアングルなどの他のコンテキストの詳細が指定されている。このモデルは、スタイル転送などの画像から画像への転送タスクを実行する機能など、設計者が予期していなかった動作を示すこともある。OpenAIは、そのモデルを「DALL-E」と名付けた。これは、PixarのロボットWALL-EとアーティストのSalvador Dali氏のマッシュアップである。おそらく、オブジェクトの非現実的な組み合わせから画像を生成できるためである。たとえば、「アボカドの形をした肘掛け椅子」などである。

出典: https://openai.com/blog/dall-e/

画像生成のための多くの人気のある深層学習モデルは、敵対的生成ネットワーク(GAN)アーキテクチャを使用している。2018年、NVIDIAの研究者は、人間の顔の写実的な画像を生成するStyleGANモデルを開発した。これを使って、存在しない人々の高解像度の写真を提供する人気のあるWebサイトと、そのバリエーションが複数作成された。2020年に、OpenAIはImage GPT(iGPT)をリリースした。これは、テキストのシーケンスではなくピクセルのシーケンスで動作するTransformerベースのモデルである。OpenAIは、テキスト向けのGPTモデルが自然言語の現実的なサンプルを生成できるのと同じように、初期ピクセルの入力が与えられると、iGPTが「コヒーレントな画像の補完とサンプルを生成」できることを発見した。

OpenAIは最近、CLIPもリリースした。GPTの自然言語機能とコンピュータービジョンを組み合わせたもう1つのディープラーニングモデルである。CLIPは、インターネットから取得したテキストとペアになった画像のデータセットで事前トレーニングされている。そして、ゼロショット転送学習を介していくつかの異なる視覚的分類タスクを実行できる。たとえば、CLIPは、ImageNetイメージのトレーニングを受けなくても、ImageNetベンチマークでオリジナルのResNet50モデルのパフォーマンスと一致させることができる。CLIPは、ImageNet-Adversarialベンチマークでも良好に機能し、77%の精度を記録している。対照的に、ResNet50は2.7%しか達成できなかった。

DALL-Eは、256個のテキストトークンと1024個の画像トークンで構成される入力が与えられたTransformerモデルである。モデルには、合計12Bのパラメーターを持つ64の自己アテンションレイヤーが含まれている。DALL-Eは自己回帰的に出力画像を生成し、OpenAIはCLIPを使用して生成された画像の品質をランク付けする。OpenAIのブログには、いくつかのサンプル画像と、入力となる記述内の一部の単語を変更することで新しい画像をインタラクティブに生成する機能が含まれている。しかし、システムの完全な詳細を公開しておらず、コードや事前トレーニング済みモデルもリリースしていない。ブログでは、同社がモデルアーキテクチャとトレーニングに関する詳細を提供する予定であり、「このテクノロジーによって暗に示される長期的な倫理的課題」を分析する予定であると述べられている。

他の著名なAI研究組織も、最近Transformerモデルをコンピュータービジョンに適用している。2019年に、MicrosoftはUNiversal Image-TExt Representation Learning(UNITER)に関する論文を発表した。これは、Transformerアーキテクチャに基づいており、視覚的な質問応答(VQA)や画像テキストの取得などの視覚/言語タスクで最先端のパフォーマンスを実現している。2020年、アレン人工知能研究所は、VQAと画像生成を実行するX-LXMERTに関する論文を発表した。

OpenAIのコードとiGPTCLIPのモデルは、GitHubで入手できる。DALL-Eはリリースされていないが、EleutherAIのAI研究者は、同様のシステムのコードをオープンソース化している。

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT