BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース マイクロソフト、ChatGPTでロボットを言語で制御することを目指す

マイクロソフト、ChatGPTでロボットを言語で制御することを目指す

ブックマーク

Microsoft Autonomous Systems and Robotics Groupの研究者は論文でOpenAIのChatGPTをロボット工学アプリケーションに活用する方法を発表した。プロンプトの設計方法と、手元のタスクをプログラムするために特定のロボットライブラリを使用するようにChatGPTに指示する方法などである。

マイクロソフトのエンジニアが説明するように、現在のロボット工学は、ロボットとタスクをコーディング、ロボットの動作観察、および追加のコード修正を担当するエンジニアとの間の緊密なフィードバックループに依存している。

マイクロソフトのビジョンによると、ChatGPTは人間の言語で書かれたタスクをロボットのコードに変換するために使用される可能性がある。これによりエンジニアのかわりに技術担当ではないユーザーが、人間の言語で元のタスクの説明をして、ロボットを観察し、ロボットの動作に関するフィードバックを提供(これも人間の言語で)できるようになる。そしてChatGPTはこれらのフィードバックも再びコードに変換して動作を改善するのである。

マイクロソフトの研究者たちは、実験的なアプローチを用いて、ドローンに棚の中身を調べるように指示するゼロショットタスク計画、ロボットアームによるオブジェクト操作、オブジェクト検出とオブジェクト距離APIによる環境内の特定オブジェクトの検索など、多くのケーススタディを作成した。

これらのすべてのケースでChatGPTはロボットを制御するためのコードを生成できただけでなく、ユーザー入力があいまいだと判断した場合には、タスクをよりよく遂行するために説明を求めることができたという。

マイクロソフトは、ChatGPTをロボットアプリケーションで利用できるようにするために、ChatGPTを誘導するプロンプトの設計方法、APIの使用と新しいハイレベルAPIの作成、テキストによる人間のフィードバック方法という3つの主要分野に焦点を当てて調査した。この3つの領域は、ChatGPTをロボットのタスクに利用するための方法論の要となるのである。

まず、ChatGPTが使用する高レベルのAPIや関数ライブラリを定義する。

このライブラリは特定のロボットに固有のもので、ロボットの制御スタックや知覚ライブラリから、既存の低レベルの実装にマッピングする必要がある。ChatGPTがその挙動を推論できるように、高レベルのAPIには説明的な名前を使うことが非常に重要だ。

第2ステップでは、ユーザは利用可能なAPIや関数の観点から指定されたタスクゴールの説明を提供する。

このとき、タスクの制約や、ChatGPTがどのように答えを生成するか(特定のコーディング言語、補助的な解析要素の使用)についての情報を含めることが可能だ。

最後に、ユーザーはChatGPTのコードをシミュレータや検査で評価し、コードを修正するようにフィードバックする。

ユーザーが満足する結果が得られたら、生成されたコードを用いてロボットをプログラミングが可能なのだ。

また、マイクロソフトは、ユーザーがさまざまなロボットカテゴリのプロンプト戦略を共有するための共同オープンソースプラットフォームを立ち上げており、現時点では、マイクロソフトが開発したすべてのプロンプトと会話が含まれている。

作者について

この記事に星をつける

おすすめ度
スタイル

BT