Googleの新たなImagen AIが、テキストから画像を生成するベンチマークでDALL-Eの性能を上回る

原文(投稿日：2022/06/14)へのリンク

GoogleのBrain Teamの研究者がImagenを発表した。これはテキストによる説明が与えられたシーンから、写真のような現実感のある画像を生成できるテキスト-to-イメージAIモデルである。Imagenは、COCOベンチマークでDALL-E 2の性能を上回り、多くの同様のモデルと異なり、テキストデータでのみ事前トレーニングされている。

このモデルと実験は、arXivで公開された論文に記載されている。Imagenでは、Transformer言語モデルを使って、入力テキストが一連の埋め込みベクトルに変換される。次に、一連の3つの拡散モデルによって、その埋め込みがを1024x1024ピクセルの画像に変換される。チームは取り組みの一環として拡散モデルを改良した。これはEfficient U-Netと呼ばれている。また、DrawBenchと呼ばれるテキスト-to-イメージモデル向けの新たなベンチマークスイートを開発した。COCOベンチマークでは、Imagenは7.27のゼロショットFIDスコアを達成し、これまでの最高のパフォーマンスモデルであるDALL-E2を上回った。研究者はまた、自身の取り組みが社会に与える潜在的な影響についても話し合い、次のように述べている。

Imagenの主な目的は、テキストから画像への合成をテストベッドとして使って、生成手法の研究を進めることです。生成手法のエンドユーザアプリケーションはほぼ研究の対象外ですが、この研究の潜在的なアプリケーションは多様であり、複雑な形で社会に影響を与える可能性があると認識しています...今後の取り組みでは、外部監査の価値と無制限のオープンアクセスのリスクとのバランスをとる責任ある外部化（responsible externalization）のフレームワークを検討します。

近年、数人の研究者がマルチモーダルAIモデルのトレーニングを調査した。テキストや画像などのさまざまなタイプのデータを操作するシステムである。2021年、OpenAIはCLIPを発表した。これは、テキストと画像の両方を同じ埋め込みスペースにマッピングできるディープラーニングモデルである。これによって、ユーザはテキストによる説明が特定の画像に適切に表しているかどうかをインプットできる。このモデルは、多くのコンピュータービジョンタスクで効果的であることが証明されている。OpenAIではこのモデルを使ってDALL-Eを作成する。DALL-Eは、テキストによる説明からリアルな画像を生成できるモデルである。CLIPとそれに類似するモデルは、インターネットから取得された画像とテキストのペアのデータセットでトレーニングされている。このデータセットは、InfoQが今年初めに報告したLAION-5Bデータセットに類似するものである。

Googleチームは、Imagenトレーニングに画像・テキストデータセットを使わずに、入力テキストを埋め込みに変換するために「既製の」テキストエンコーダーT5を使った。埋め込みを画像に変換するためにImagenでは一連の拡散モデルを使用する。この生成AIモデルでは、反復ノイズ除去プロセスを使って、ガウスノイズをデータ分布（この場合は画像）からのサンプルに変換する。ノイズ除去は、いくつかの入力を条件とする。1つ目の拡散モデルに対する条件は入力テキストの埋め込みである。このモデルは64x64ピクセルの画像を出力する。出力された画像の解像度を1024x1024に上げるために、2つの「超解像」拡散モデルを通してアップサンプリングする。これらのモデルに対して、GoogleはEfficient U-Netと呼ばれる新たなディープラーニングアーキテクチャを開発した。これは、以前のU-Net実装よりも「シンプルで、収束が速く、メモリ効率が高い」ものである。

Image generated by Imagen

"かわいいコーギーは寿司でできた家に住んでいる" - 画像ソース: https://imagen.research.google

研究者は、COCO検証セットでImagenを評価することに加えて、新たな画像生成ベンチマークのDrawBenchを開発した。このベンチマークは、合成、カーディナリティ、空間関係など「モデルのさまざまなセマンティックプロパティを探索できるように設計された」テキストプロンプトの集合で構成されている。DrawBenchでは、人間の評価者を使って2つの異なるモデルを比較する。まず、各モデルはプロンプトから画像を生成する。次に、評価者は2つの結果を比較し、どちらのモデルがより良い画像を生成したかを選択する。BrainチームはDrawBenchを使ってImagenを評価し、DALL-E2および他の3つの類似モデルと比較した。チームは、審査員が他のモデルよりもImagenによって生成された画像を「非常に」好むことを発見した。

Twitterで、GoogleのプロダクトマネージャーのSharon Zhou氏がこの作業について話し合い、次のように述べている。

いつものように、結論としては、[大規模な言語モデルを]スケールアップし続ける必要があるということです。

別のスレッドで、Google BrainチームのリーダーであるDouglas Eck氏が、Imagenによって生成された一連の画像を投稿した。これらはすべて、1つプロンプトから派生させたプロンプトから生成したものである。Eck氏は、画像のスタイル、照明、その他の外観を調整するための単語を追加して、プロンプトを修正している。Imagenによって生成された他のサンプル画像はImagenプロジェクトサイトにある。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Googleの新たなImagen AIが、テキストから画像を生成するベンチマークでDALL-Eの性能を上回る

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。