BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Google DeepMind社、ロボット基盤モデルGemini Robotics On-Deviceを発表

Google DeepMind社、ロボット基盤モデルGemini Robotics On-Deviceを発表

原文リンク(2025-07-15)

Google DeepMind社が、Gemini Robotics On-Deviceを発表した。Gemini Robotics On-Deviceは、ロボットのローカル実行に特化したVLA(vision-language-action)基盤モデルである。なかでも低レイテンシー推論に秀でており、わずか50回のデモンストレーションで特定タスクへのカスタマイズチューニングが可能である。

Gemini Robotics On-Deviceは、Gemini Roboticsファミリーの最新モデルであり、同時に、Gemini Roboticsファミリーの中で初めてチューニングによるカスタマイズ機能を搭載したモデルである。低レイテンシー状態やネットワーク遮断状態でもロボットハードウェア内でローカル実行が求められるアプリへの実装を目的として開発が行われた。Gemini Robotics On-Deviceは自然言語による指示の理解・実行処理、視覚を活用した周囲の物体の認識・推論能力を備えている。 DeepMind社が二本腕タイプのAlohaロボットで実装・チューニングした同モデルを他の複数のロボットで動作テストをしたところ、最新ハードウェアでも複雑なタスク処理が可能であることが確認できたという。以下が、同社の発表だ。

今回、Gemini Robotics On-Deviceがリリースされたことで、よりパワフルなロボットモデルの普及・汎用性向上が一段と実現に近づきました。わが社のオンデバイスソリューションは、ロボット開発者コミュニティにとって重大な課題であるレイテンシ・回線接続の課題に取り組む支援ツールとなります。さらに、Gemini Robotics SDKでは、各特定のニーズに合わせたモデル調整させることを可能です。イノベーションがさらに加速することでしょう。是非、信頼できるテスタープログラムから、弊社モデルとSDKへお申し込みください。 弊社は、これらの新しいツールの登場で、ロボット開発コミュニティからどのような発展が生まれるかを楽しみにしております。また、今後とも、AIを世の中へ実体化していく未来の可能性を探求してまいります。

同社は今回のリリースに先駆けて、今年の初めにGemini Roboticsファミリーをリリースした。このGemini Roboticsは、グーグルの大規模言語モデルGemini 2.0を基盤としたモデルで、物理的な動作の出力用モダリティが実装されている。また、同社からは、Gemini Roboticsに加え、ロボットの制御装置を評価するASIMOVベンチマークや、視覚推論性能を評価するEmbodied Reasoning QA(ERQA)評価データセットなどの複数のベンチマークも発表されている。

Google DeepMind社では、Gemini Roboticsが新規タスクへどれだけ迅速に適応できるか、適応能力の検証を実施した。 食事の準備やトランプゲームなどの7つの異なるタスクで、デモンストレーションを通じたモデルのファインチューニングを最大100回行った。その結果、モデルのチューニングをしたロボットは、平均で60%タスクを正確に処理ができた。これは、「現在実装されている最高のVLA」を上回る数値である。だが、オフライン環境のGemini Roboticsモデルはさらに優れた性能を示しており、その成功率は約80%に達したとされている。

Hacker NewsのGemini Robotics On-Devicenに関する議論で、あるユーザーが次のようにコメントしている。

ここ数ヶ月、VLA基盤モデルについて情報を集めてきましたが、これは大きな変革が期待できそうです。まさしく業界の誰もが待ち望んだ『ロボット開発分野へのChatGPT参入の瞬間』の到来です。画像・テキスト認識性能であれば、すでに現行のマルチモーダルLLMでも実装されています。VLA基盤モデルもロボットが認識できる特定のシーケンスで動作指示を出せるようにファインチューニングされたマルチモーダルLLMに過ぎません。私が注目しているのは、このGemini Robotics On-Deviceがロボットを使用するあらゆる作業に応用できる点です。現状はロボットアームでの物体操作機能に関心を寄せている方が多いようですが…。芝刈機にスマート機能が搭載されていたら、便利ですよね?「芝生」、「刈り取る」、「進行方向におもちゃがあったら避けて通る」くらいは、今の技術でも十分理解ができます。芝刈機としての機能をファインチューニングしてあげればいいだけなのです。

Gemini Robotics On-Deviceは現段階では、一般公開されていない。だが、Gemini Robotics On-Deviceを使用してみたい開発者には、ウェイトリストへの登録がおすすめだ。また、Gemini Robotics On-Deviceの関連モデル、Gemini Robotics-ERのインタラクティブデモは、ウェブ上で一般公開中である。くわえて、GitHubでGemini Robotics SDKの利用も可能だ。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT