Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表

Meta AI Researchは、2つの新しい生成AIモデルを発表した。Emu Videoは、テキストプロンプトにて短い動画の生成ができ、Emu Editは、テキストベースの指示を受けて画像編集ができる。両モデルとも、Meta社のEmu基礎モデルをベースにしており、いくつかのベンチマークで最先端の性能を示している。

Emu Videoは、ビデオ生成に因数分解または2段階のアプローチを採用している。まず、テキストプロンプトに基づいて画像を生成し、次にプロンプトと生成された画像からビデオを生成する。どちらのステップでも、Make-a-Videoのような、異なるモデルのパイプラインを使用する従来の方法とは異なり、微調整された１つのEmu拡散モデルを使用する。Emu EditもEmu拡散モデルに基づているが、テキストInstructionプロンプトを追加の条件付けベクトルに変換するタスク埋め込み層が含まれてる。Emu VideoとEmu Editは、生成された画像の品質と指示の正確さについて、これらのモデルの使用者によって評価された。Emu Videoの場合、品質で91.8%、忠実度で86.6%であった。メタによれば、

プロのアーティストやアニメーターの代わりにはならないが、Emu Video、Emu Edit、そしてこれらのような新しいテクノロジーは、アートディレクターが新しいコンセプトを考えたり、クリエイターが最新のリールを最高のものに活気づけたり、親友がユニークな誕生日の挨拶をしたりといった、新しい方法で自分自身の表現に役立つだろう。それは祝福に値することである。

Emuの基盤モデルは、今年の初めに開催されたMeta Connectで発表された。これは潜在拡散モデルで、10億以上の画像とテキストのセットで事前に学習され、その後「厳選された数千枚の高品質画像」で微調整される。Emuは「非常に視覚的に魅力的な」画像の生成ができ、人間の判定者は70％以上の確率で、Stable Diffusion XLよりもEmuの出力を好むという。

研究者たちは、Emu Videoを作成するために、3,400万のビデオとテキストのデータセットを使用して、Emuの基礎モデルをさらに微調整した。モデルは、初期フレーム画像が与えられた場合に、将来のいくつかのビデオフレームを予測することを学習した。その結果、その結果、16fpsで512x512ピクセルの4秒間の動画を生成可能になった。テキストからビデオへの変換に加えて、このモデルはユーザーの画像からビデオの生成も可能だ。このタスクでは、ベースラインのVideoComposerモデルよりも96%の確率で出力が優先された。

Emu Editorを学習させるために、Metaチームは1,000万サンプルの合成データセットを作成した。各サンプルは、入力画像、テキストによる指示、希望する出力画像、タスクインデックスから構成される。インデックスは、オブジェクトの削除や画像のスタイルの変更など、16の定義済みタスクのどれを示すかを示す。学習中、モデルは各タスクの埋め込みを学習する。モデルは、ほんの「一握り」の新しい例で埋め込み層を微調整することで、新しいタスクを学習できる。

Redditのディスカッションで、あるユーザーが投稿した。

ここでもっとも興味深いのは、トレーニングデータセットの作成方法について説明している付録だ。彼らは、LLaMA、DINO、Segment Anything、画像ジェネレーターを含むツールチェーンを使って、何百万もの画像→命令→出力のペアを作成している。これは合成データの本当の成功例である。

Hacker Newsでのディスカッションでは、何人かのユーザーが、「Metaは最近オープンソースに乗り出していた」と述べ、モデルがオープンソース化されていないことに失望を表明した。Meta社はEmu Videoと Emu Editのデモサイトを作成した。Meta社はまた、Emu EditベンチマークデータセットをHuggingfaceで公開した。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。