Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表

Meta AI Researchは、2つの新しい生成AIモデルを発表した。Emu Videoは、テキストプロンプトにて短い動画の生成ができ、Emu Editは、テキストベースの指示を受けて画像編集ができる。両モデルとも、Meta社のEmu基礎モデルをベースにしており、いくつかのベンチマークで最先端の性能を示している。

Emu Videoは、ビデオ生成に因数分解または2段階のアプローチを採用している。まず、テキストプロンプトに基づいて画像を生成し、次にプロンプトと生成された画像からビデオを生成する。どちらのステップでも、Make-a-Videoのような、異なるモデルのパイプラインを使用する従来の方法とは異なり、微調整された１つのEmu拡散モデルを使用する。Emu EditもEmu拡散モデルに基づているが、テキストInstructionプロンプトを追加の条件付けベクトルに変換するタスク埋め込み層が含まれてる。Emu VideoとEmu Editは、生成された画像の品質と指示の正確さについて、これらのモデルの使用者によって評価された。Emu Videoの場合、品質で91.8%、忠実度で86.6%であった。メタによれば、

プロのアーティストやアニメーターの代わりにはならないが、Emu Video、Emu Edit、そしてこれらのような新しいテクノロジーは、アートディレクターが新しいコンセプトを考えたり、クリエイターが最新のリールを最高のものに活気づけたり、親友がユニークな誕生日の挨拶をしたりといった、新しい方法で自分自身の表現に役立つだろう。それは祝福に値することである。

Emuの基盤モデルは、今年の初めに開催されたMeta Connectで発表された。これは潜在拡散モデルで、10億以上の画像とテキストのセットで事前に学習され、その後「厳選された数千枚の高品質画像」で微調整される。Emuは「非常に視覚的に魅力的な」画像の生成ができ、人間の判定者は70％以上の確率で、Stable Diffusion XLよりもEmuの出力を好むという。

研究者たちは、Emu Videoを作成するために、3,400万のビデオとテキストのデータセットを使用して、Emuの基礎モデルをさらに微調整した。モデルは、初期フレーム画像が与えられた場合に、将来のいくつかのビデオフレームを予測することを学習した。その結果、その結果、16fpsで512x512ピクセルの4秒間の動画を生成可能になった。テキストからビデオへの変換に加えて、このモデルはユーザーの画像からビデオの生成も可能だ。このタスクでは、ベースラインのVideoComposerモデルよりも96%の確率で出力が優先された。

Emu Editorを学習させるために、Metaチームは1,000万サンプルの合成データセットを作成した。各サンプルは、入力画像、テキストによる指示、希望する出力画像、タスクインデックスから構成される。インデックスは、オブジェクトの削除や画像のスタイルの変更など、16の定義済みタスクのどれを示すかを示す。学習中、モデルは各タスクの埋め込みを学習する。モデルは、ほんの「一握り」の新しい例で埋め込み層を微調整することで、新しいタスクを学習できる。

Redditのディスカッションで、あるユーザーが投稿した。

ここでもっとも興味深いのは、トレーニングデータセットの作成方法について説明している付録だ。彼らは、LLaMA、DINO、Segment Anything、画像ジェネレーターを含むツールチェーンを使って、何百万もの画像→命令→出力のペアを作成している。これは合成データの本当の成功例である。

Hacker Newsでのディスカッションでは、何人かのユーザーが、「Metaは最近オープンソースに乗り出していた」と述べ、モデルがオープンソース化されていないことに失望を表明した。Meta社はEmu Videoと Emu Editのデモサイトを作成した。Meta社はまた、Emu EditベンチマークデータセットをHuggingfaceで公開した。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

セキュリティ専門家がSQLインジェクションで空港セキュリティの抜け穴を突く

CockroachDBが無料のCoreバージョンを終了、オープンソースコミュニティで懸念が高まる

Cloudflareが自動SSL/TLSを導入し、オリジンサーバー接続の安全性と簡素化を図る

Figma、ECSからKubernetesに移行し、CNCFエコシステムの恩恵とコスト削減を図る

Lyft社が共同作業のためのProtocol Buffers設計ベストプラクティスを促進

倹約的なアーキテクチャを支えるAWSのフレームワーク

ソフトウェア会社での社内DORA調査の知見

時代に左右されないテストツールを使う意義

チーム・イネーブラーとしてのLLMとエージェント

Google、ゲームシミュレーションAI「GameNGen」を発表

HelixML、Helix 1.0のリリースを発表

XプラットフォームでGrok-2ベータ版がリリースされた

Grafana k6リリース：Typescript、ECMAScript、ブラウザテストなどの機能強化

AIでKubernetes管理を簡素化するIntuit Engineeringのアプローチ

Kubernetes v1.31リリース：セキュリティ、安定性、AI/MLサポートの強化

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方

Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。