Joanneum ResearchのInstitute for Robotics and Mechatronicsは、ロボットのコントロールに使用する強化学習(reinforcement learning、RL)AI開発用のオープンソースフレームワークrobo-gymのバージョン1.0.0をリリースした。新たな障害物回避(obstacle avoidance)環境、Universal Robotsのコボット(cobot、協働ロボット)モデルの全サポートが含まれる他、コードの品質が改善されている。
今回のリリースは、Robot Operating System(ROS)ディスカッションフォーラムで発表された。ROSをベースとして、シミュレーションにGazebo物理演算エンジンとOpenAI Gymインターフェースを使用することにより、シミュレーション環境で開発したRLアルゴリズムを、最小限の修正で実際のロボットに転送することができる。今回のリリースでは、ROSプラットフォームの最新バージョンであるROS Noeticがサポートされ、バージョン3.6より新しいPythonのサポートが追加された。バグフィックスや、ログおよびデバッグ機能の改善などを合わせて、500近いコミットが含まれている。
強化学習は、環境と対話するエージェントを扱う、マシンラーニングの一分野である。AIがデータを変換するだけの自然言語処理(NLP)やコンピュータビジョン(CV)といった課題とは対照的に、RLでトレーニングされたエージェントは、周囲をセンスし、一連のアクションを実行し、それに対する報酬信号(reward signal)を受信することによって、所定の目標を達成しようとする。2013年、AI企業のDeepMindは、ディープラーニング技術をRLに適用することで、Atariのクラシックなビデオゲームをプレー可能なエージェントの実現に成功した。同社はGoogleに買収された後もRLの研究を継続し、世界最高の碁のプレーヤを打ち負かすAIシステムのAlphaGoを開発するに至っている。
RLを使って開発された、このようなゲームプレーAIシステムの大部分は、物理的な世界とは対話していない。例えばAlphaGoは、実際の碁を物理的に打つのではなく、石の動きを人であるオペレータが認識できるようにプリントアウトする。しかしながら、実際にロボットをコントロールするRLシステムでは、多くの場面において、センサのノイズのような現実世界の予測不能性や、ロボットハードウェアの機械力学について考慮しなくてはならない。その一方で、物理的な実際のロボットを使ってRLトレーニングを実施すると、トレーニングの初期段階にはロボットを損傷するリスクがある上に、とてつもなく長い時間を要することにもなる。このような問題を軽減するため、ロボティクス用RLプラットフォームの多くは、シミュレーションエンジンを使って大量のトレーニングを実施している。
Joanneum Researchは2020年に最初のrobo-gymを開発し、ロボティクスに関する最高の学術的カンファレンスのひとつであるInternational Conference on Intelligent Robots and Systems(IROS)に提出した論文の中で、そのシステムについて説明した。robo-gymフレームワークでは、ロボットの抽象化層とコントロール層を提供するために、リアルとシミュレーションの両方でROSを使用している。環境のシミュレーションには、Gazebo 3D物理シミュレータを使用する。システムへの高次インターフェースには、RL研究では一般的なフレームワークであるOpenAI Gymインターフェースを使用している。IROSの論文によると、robo-gymの開発では、AIをトレーニングするためにシミュレーション上で2つの異なるタスクを解決する方法により、実際のロボット上でトレーニングすることなくAIを動作させることができた、ということだ。
robo-gymの最初のリリースはPython 3.5とROS Kinetic上で動作し、MiR100モバイルロボットとUR10協働産業用ロボットという、2つの物理的ロボット用のドライバが含まれていた。最新リリースでは、ROS KineticとPython 3.5のサポートが廃止されており、Python 3.6とROS Melodicが最小要件となっている。さらに、Universal Robotの全モデル — UR3、UR3e、UR5、UR5e、UR10、UR10e、UR16用のドライバが追加された。
RL開発へのシミュレーション環境の利用は、現在注目されている研究課題である。2019年にはAcutronic Roboticsが、同じくROSとGazeboをベースとしたRLプラットフォームのgym-gazebo2をリリースしている。さらに最近では、MIT、Facebook、Allen Institute for AIといった組織が、それぞれのシミュレーション環境や関連する課題をリリースしており、開発に拍車がかかっている。DeepMindは先頃、Androidモバイルデバイス上で動作するRLエージェントを開発するAndroidEnvプラットフォームを、オープンソースとして公開した。それと同時に、RLは十分に汎用人工知能(artificial general intelligence)を生み出すことができる、という自らの仮説の大筋をまとめた論文を、Artificial Intelligence journalに掲載している。
robo-gymのソースコードはGitHubから入手が可能である。