GoogleのSEED RLが強化学習を80倍スピードアップ

原文(投稿日：2020/04/07)へのリンク

Google Brainの研究者は最近、AI強化学習向けのスケーラブルで効率的なDeep-RL（SEED RL）アルゴリズムをオープンソース化した。SEED RLは、複数のRLベンチマークで最先端の結果をより低コストで、以前のシステムより最大で80倍高速に実現する分散型アーキテクチャである。

チームは、SEED RLアーキテクチャの説明といくつかの実験結果を、2020年の学習表現に関する国際会議（ICLR）で採択された論文で公開した。この取り組みは、ニューラルネットワーク推論をGPUまたはTPUハードウェアアクセラレータを利用できる中央の学習サーバに移動することにより、既存の分散型強化学習システムのいくつかの欠点に対処するものである。DeepMind Lab環境のベンチマークでは、SEED RLは64のCloud TPUコアを使用して毎秒240万フレームのフレームレートを達成した。これは、以前の最先端システムより80倍速いレートである。この取り組みをまとめたブログ投稿で、主執筆者のLasse Espeholt氏は述べている。

SEED RLと示した結果は、強化学習が、アクセラレータを利用するという点で、ディープラーニングの残りの領域に再び追いついたことを示しています。

強化学習（RL）は、ゲームでの動きを選択するような、アクションを決定する必要があるシステムを作成するために使用されるAIの派生である。これは、例えば、テキストを英語からフランス語に翻訳するNLPシステムような、入力データを単純に変換する他のシステムとは対照的なものである。RLシステムには、トレーニングの入力として手書きのデータセットを必要としないという利点がある。代わりに、学習システムは、たとえば数百または数千のゲームをプレイすることによって、ターゲット環境と直接インタラクションを行う。Deep RLシステムにはニューラルネットワークが組み込まれており、多くの場合、Starcraftや碁などの幅広いゲームで最もうまい人間のプレイヤーを倒すことができる。

他のディープラーニングシステムと同様に、deep-RL AIはトレーニングに費用と時間がかかる可能性がある。現在の最先端の取り組みでは、システムを集中型の学習器と複数のアクターに分解することで、プロセスを高速化している。すべてのアクターと学習器は同じニューラルネットワークのコピーを持っている。アクターは環境とインタラクションを行う。ゲームをプレイするAIの場合、アクターはゲームの状態を検知し、アクターのニューラルネットワークによって選択された次のアクションを実行することによってゲームをプレイする。アクターは、経験（ゲームから感知したデータ、選択したアクション、アクションの結果）を学習器に送信し、共有ニューラルネットワークのパラメーターを更新する。アクターは定期的に学習器の最新バージョンからネットワークのコピーを更新する。アクターが環境とインタラクションを行う速度はフレームレートと呼ばれ、システムをどれだけ迅速にトレーニングできるかを示す良い指標となる。

このアーキテクチャにはいくつかの欠点がある。特に、アクターでニューラルネットワークのコピーを維持すると、通信のボトルネックが発生するし、ネットワークの推論にアクターのCPUを使用することは、計算処理のボトルネックになる。SEED RLアーキテクチャは、ネットワークトレーニングと推論の両方に集中型の学習器を使用する。これにより、ニューラルネットワークパラメーターをアクターに送信する必要がなくなり、学習器はGPUやTPUなどのハードウェアアクセラレーターを使用して、学習と推論の両方のパフォーマンスを向上させることができる。アクターは推論にリソースを使用する必要がなくなるため、問題の環境をより高いフレームレートで実行できる。このシステムは、Google Research Football環境、Arcade Learning Environment、Arcade Learning Environment, and DeepMind Lab環境でベンチマークされた。DeepMind Lab環境では、SEED RLは64クラウドTPUコアで毎秒240万フレームのフレームレート、80倍のスピードアップを実現し、一方でコストを4分の1に削減した。このシステムは、Google Research Football環境でこれまで未解決のタスク（「ハード」）を解くことができた。

Google Brainは、GoogleフェローのJeff Dean氏とスタンフォード大学の教授であるAndrew Ng氏との間でGoogle Xの共同研究として設立された。2013年、ディープラーニングのパイオニアであるGeoff Hinton氏がチームに加わった。Google Brainの研究の多くは自然言語処理（NLP）と認知作業に関するものであった。RLはDeepMindが注目していたものであり、2014年にGoogleが買収したRLスタートアップである。DeepMindは、最も碁がうまい人間のプレイヤーのうちの1人を倒したAlphaGo AIを開発した。

SEED RLのソースコードはGitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Googleがノードプール自動作成速度を向上、GKEクラスタ向け

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027