Dreamer 4: オフラインデータからの想像力トレーニングで目標達成を学ぶ

原文リンク(2025-10-06)

Google DeepMindの研究者たちは、環境との直接的な相互作用ではなく、ビデオ映像のみを用いて知能エージェントに複雑で長期的なタスクを解決する方法を教える新しいアプローチを最近発表した。彼らの新しいエージェントDreamer 4は、実際にゲームをプレイすることなく、ビデオで訓練された後にMinecraftでダイヤモンドを採掘する能力を示した。

研究者たちは、このアプローチを想像力トレーニングと名付けた。エージェントが物理的な世界との相互作用なしに、オフラインデータのみから学習することを強調するためである。言い換えれば、訓練はエージェントの「想像」の中で完全に行われ、現実のシナリオに適用される。この特徴は、ロボット工学のような分野にとって特に重要だと、研究の著者の一人Danijar Hafner氏はTwitterで述べている。直接的なオンライン相互作用が実用的であることが多いからだ。

関連論文では、研究者たちは彼らのアプローチを詳細に説明している。彼らのモデルアーキテクチャは、各ビデオフレームを連続的な表現に圧縮するトークナイザーと、現在の表現と選択されたアクションを基に次の世界の表現を予測するダイナミクスモデルの2つの主要なコンポーネントで構成されている。

ダイナミクスモデルをより効率的にするために、研究者たちはショートカットフォーシングを採用し、精度を失うことなく未来のフレームを予測する際にモデルが大きなステップを取るように訓練した。その結果、Dreamer 4はリアルタイムで新しい世界の表現を生成できる。また、空間と時間にわたるカジュアルアテンションと特殊なメモリ技術を組み込むことで、単一のGPUで最低20フレーム毎秒を維持できる。

前述の通り、Dreamer 4はオフラインデータのみで訓練された初のエージェントであり、Minecraftでダイヤモンドを採掘する能力を証明した。これは単純なタスクに見えるかもしれないが、実際には生のピクセルデータに基づいて20,000以上のマウスとキーボードのアクションのシーケンスを選択する必要がある。

Dreamer 4は、OpenAIのVPTオフラインエージェントを大幅に上回り、使用するデータ量は100分の1です。また、一般的な視覚言語モデルの微調整に基づく最新の行動クローニングアプローチよりも優れた性能を発揮します。

研究者たちはまた、Dreamer 4がGemma 3よりも優れた性能を示したことを強調しており、彼らのアプローチが行動クローンエージェントの構築だけでなく、一般的な意思決定にも効果的である可能性があることを示している。

Xでの質問に対して、Hafner氏はMinecraftを具現化エージェント研究の優れたテストベッドと表現し、ダイヤモンドを採掘することは複雑なタスクであるが、Minecraftがエージェントをテストするために提供する唯一の挑戦ではないと述べた。

Minecraftで達成できる一般的なAIの進歩はまだまだたくさんあります！エージェントはまだ人間レベルのプレイには程遠く、ダイヤモンドを手に入れる以上に難しいタスクが何百もあります。

最後に、Dreamer 4は実世界のロボットデータセットでもテストされ、反事実的な相互作用をする能力を示した。物体の相互作用の物理学に苦労することが多い最先端のビデオモデルと比較して、有望な結果を示した。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Dreamer 4: オフラインデータからの想像力トレーニングで目標達成を学ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。