BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Google DeepMind社、Gemini Robotics-ER 1.5でエンボディド推論を実現

Google DeepMind社、Gemini Robotics-ER 1.5でエンボディド推論を実現

原文リンク(2025-05-27)

Google DeepMind社が、ロボットアプリケーション向けの新たなエンボディド推論モデル「Gemini Robotics-ER 1.5」を発表した。現在、Google AI StudioやGemini APIを通じたプレビュー版の利用が可能だ。

Gemini Robotics-ER 1.5は、空間的推論や段階的な計画、物理環境での動作処理を必要とするタスクに向けて設計されたモデルである。物体のサイズ、重さ、移動が可能かに応じた正確な平面座標を算出でき、「持ち上げられそうなものを指し示す」といった指示に従うことも可能だ。また、思考予算を調整することで、応答の速度と推論精度の兼ね合いを調整することもできる。

今回発表となったGemini Robotics-ER 1.5は、安全性や物理的な問題により作業が困難な状況に備えた安全装置を内蔵しており、ペイロード上限や作業空間の障害を検知する機能が実装されている。アクチュエーターの制御機能はないものの、必要なVLA(vision-language-action)モデルやユーザー定義関数を呼び出し、作業を実行することもできる。 また、Gemini Robotics-ER 1.5は、推論モデルとVLAモデルを組み合わせた二重モデルシステムを採用しており、異なる設定のロボットを使用したハイレベル推論も可能だ。現在、Apptronik社をはじめとするパートナー企業や60人以上のテスターとともにシステム開発が進行している。

Nvidia社のVLAモデルなどの他社ロボット用大規模モデルと比べたGemini Robotics-ER 1.5の特色は、推論の深さの調整機能や安全装置機能が実装されている点である。取り入れた知覚情報をそのまま動作に反映する「知覚と動作の一元化」に焦点を当てた従来システムに対し、Geminiでは推論と実行を分けた「段階的処理の実行」が可能になっている。このため、複数のハードウェアプラットフォームが簡単に利用できるようになるだろう。

リリース直後の反応からは、ユーザーであるロボットエンジニアの関心と懸念の両方が窺える。 推論精度とデプロイ速度をコントロールできる思考予算の調整機能に好評が集まる一方、推論とアクチュエーションを分離することでレイテンシーが発生する可能性に対する懸念も生じている。

Gemini Robotics-ER 1.5の汎用的アプローチについて、AIコンサルタントのSonia Sarao氏が次のようにコメントしている。

Gemini Robotics-ER 1.5の汎用性で、ロボット開発が大きな革新を迎えることになるでしょう。大手がGoogle DeepMind社とのパートナー契約締結に流れるのは明らかです。ただ、中小メーカーも同社とAI使用に関するライセンス契約を締結すれば、ニッチビジネスに特化した自社ロボットを開発することができます。

また、CPA(公認会計士)のBrian Orlando氏は、以下の投稿のように今回の発表がターニングポイントになるとの見解を述べている。

これは、すごいですよ。ロボットで推論も計画策定もスキルトランスファーもお手の物です。今まさに時代が変わろうとしてきています。今日は洗濯のように用途が限られていても、明日にはなんでもこなしてくれる万能ロボットが登場しそうですよ。

今回のGemini Robotics-ER 1.5のリリースで、エンボディドAI研究開発ツールセットがさらに充実する形となった。本モデルからも推論と実行を段階分けしつつ、複数プラットフォームで使用が可能な汎用性の両立に向けた開発方針の変動傾向が見受けられる。DeepMind社の報告では、Gemini Robotics-ER 1.5が15種類のロボット用ベンチマークで最新モデルと同等の性能が確認されたほか、双腕ラボ用ロボットからヒューマノイドロボットまで、幅広いプラットフォームにおける互換性も明らかになったという。設計開発の焦点は、形状の異なる様々なロボットへの応用が可能な単一ソフトウェアスタックの設計開発に向かっている。今後は、ラボテストからデプロイへの移行サポートも進んでいくだろう。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT