Google DeepMindの研究者たちは、環境との直接的な相互作用ではなく、ビデオ映像のみを用いて知能エージェントに複雑で長期的なタスクを解決する方法を教える新しいアプローチを最近発表した。彼らの新しいエージェントDreamer 4は、実際にゲームをプレイすることなく、ビデオで訓練された後にMinecraftでダイヤモンドを採掘する能力を示した。
研究者たちは、このアプローチを想像力トレーニングと名付けた。エージェントが物理的な世界との相互作用なしに、オフラインデータのみから学習することを強調するためである。言い換えれば、訓練はエージェントの「想像」の中で完全に行われ、現実のシナリオに適用される。この特徴は、ロボット工学のような分野にとって特に重要だと、研究の著者の一人Danijar Hafner氏はTwitterで述べている。直接的なオンライン相互作用が実用的であることが多いからだ。
関連論文では、研究者たちは彼らのアプローチを詳細に説明している。彼らのモデルアーキテクチャは、各ビデオフレームを連続的な表現に圧縮するトークナイザーと、現在の表現と選択されたアクションを基に次の世界の表現を予測するダイナミクスモデルの2つの主要なコンポーネントで構成されている。
ダイナミクスモデルをより効率的にするために、研究者たちはショートカットフォーシングを採用し、精度を失うことなく未来のフレームを予測する際にモデルが大きなステップを取るように訓練した。その結果、Dreamer 4はリアルタイムで新しい世界の表現を生成できる。また、空間と時間にわたるカジュアルアテンションと特殊なメモリ技術を組み込むことで、単一のGPUで最低20フレーム毎秒を維持できる。
前述の通り、Dreamer 4はオフラインデータのみで訓練された初のエージェントであり、Minecraftでダイヤモンドを採掘する能力を証明した。これは単純なタスクに見えるかもしれないが、実際には生のピクセルデータに基づいて20,000以上のマウスとキーボードのアクションのシーケンスを選択する必要がある。
Dreamer 4は、OpenAIのVPTオフラインエージェントを大幅に上回り、使用するデータ量は100分の1です。また、一般的な視覚言語モデルの微調整に基づく最新の行動クローニングアプローチよりも優れた性能を発揮します。
研究者たちはまた、Dreamer 4がGemma 3よりも優れた性能を示したことを強調しており、彼らのアプローチが行動クローンエージェントの構築だけでなく、一般的な意思決定にも効果的である可能性があることを示している。
Xでの質問に対して、Hafner氏はMinecraftを具現化エージェント研究の優れたテストベッドと表現し、ダイヤモンドを採掘することは複雑なタスクであるが、Minecraftがエージェントをテストするために提供する唯一の挑戦ではないと述べた。
Minecraftで達成できる一般的なAIの進歩はまだまだたくさんあります!エージェントはまだ人間レベルのプレイには程遠く、ダイヤモンドを手に入れる以上に難しいタスクが何百もあります。
最後に、Dreamer 4は実世界のロボットデータセットでもテストされ、反事実的な相互作用をする能力を示した。物体の相互作用の物理学に苦労することが多い最先端のビデオモデルと比較して、有望な結果を示した。