Stability AIのオープンソース動画生成モデル　Stable Video Diffusion

原文リンク(2023-12-05)

Stability AI社は、動画生成AIモデルStable Video Diffusion(SVD)のコードとモデルウェイトを公開した。コンテキストとして入力画像が与えられると、このモデルは576x1024ピクセルの解像度で25のビデオフレームを生成できる。

このモデルは、Stability社のStable Diffusionテキスト画像生成モデルをベースにしており、さらに動画の事前学習と高品質なキュレーションデータセットを使った微調整が加えられている。この追加学習を行うために、Stability AI社は、212年間の実行時間に相当する580Mのビデオクリップを含むLarge Video Dataset（LVD）と呼ばれるデータセットを収集した。最初のモデルリリースは画像から動画への生成のみをサポートしているが、Stability AI社は、テキストから動画への生成やマルチビュー（つまり3Dオブジェクト）生成など、複数の動画生成タスクに適応できると主張している。同社はまた、WEBベースののテキストから動画へのインターフェイスにアクセスするためのウェイティングリストを公開している。モデルライセンスは、研究目的のみの使用を許可している。

私たちは、最新の技術を駆使してモデルのアップデートに意欲的に取り組み、皆様からのフィードバックを取り入れる努力をしていますが、現段階では、このモデルは実世界での応用や商業的応用を意図したものではないことを強調しておきます。安全性と品質に関するみなさまの洞察とフィードバックは、最終的なリリースに向けてこのモデルを改良する上で非常に重要となります。

SVDを構築するためのStability AI社の一般的な戦略は、大規模な動画のデータセットを収集し、注釈を付けることだった。まず未加工の動画からスタートし、「カット」などの動きの不一致や、まったく動きのない動画を削除した。次に、画像のみのキャプションモデル、動画キャプションモデル、そしてこの2つを組み合わせるLLMを用いて、各クリップに3つの合成キャプションを適用した。また、CLIPを使用して、動画サンプルの選択されたフレームの美的スコアを抽出した。

大規模なデータセットでベースとなる動画拡散モデルを学習した後、研究者らは、より小規模なキュレーションデータセットを使用して、テキストから動画、画像から動画、フレーム補間、マルチビュー生成などのタスクに特化したモデルを微調整した。また、LoRAのカメラ制御ブロックを画像-動画モデル用に学習させた。人間の判定による評価では、画像-動画モデルの出力は、最先端の商用製品であるGEN-2やPikaLabsが生成したものよりも好まれた。マルチビュー生成モデルは、最先端モデルのZero123とSyncDreamerを上回った。

Stability AI社のCEOであるEmad Mostaque氏は、このモデルの現在および将来の機能についてX（旧Twitter）でこのように述べている。

LoRAを介したカメラコントロールだけでなく、爆発やあらゆる種類のエフェクトが可能です。ブロッキング、ステージング、ミザンセーヌ、シネマトグラフィ、その他シーン制作のあらゆる要素、そしてまったく新しいものが揃います。

Hacker NewsでのSVDに関する議論の中で、あるユーザーがこのアプローチの欠点を指摘した。

私はSDが大好きだし、これらの映像事例は素晴らしいですが…これは欠陥の多い方法です。正しいライティングが行われることはないし、いたるところに支離滅裂な矛盾点がたくさんあります。3Dアーティストやフォトグラファーなら、すぐにそれを見抜くことができるでしょう。しかし、私は近いうちにもっと優れたものができることに賭けてもいいと思っています。何かを描写すると、3Dモデルやライトの光源などがセットアップされた完全な3Dシーンが表示される。そして、そのシーンはBlenderに送られ、ボタンをクリックすると、正しいライティングでBlenderによる実際の描画が行われる。

Stable Video DiffusionのコードはGitHubで、モデルウェイトはHuggingfaceで入手できる。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Stability AIのオープンソース動画生成モデル Stable Video Diffusion

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

Stability AIのオープンソース動画生成モデル　Stable Video Diffusion

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。