DeepMindのAgent57はすべてのAtari 2600ゲームで人間よりも優れた結果を出している

原文(投稿日：2020/05/05)へのリンク

GoogleのDeepMindの研究者はAgent57と呼ばれる強化学習（RL）システムを作成した。Agent57は、Arcade学習環境で57のAtari 2600ゲームすべてで人間のベンチマークを上回った。Agent57は、パッケージの中で最も難しいゲームでさえ、人間よりも優れた結果を出した最初のシステムである。

研究者たちは、arXivで発表された論文でシステムと一連の実験について説明した。Agent57は、Never Give Up（NGU）アルゴリズムに関するDeepMindによる以前のRLの取り組みに基づいて構築されている。基礎となるアーキテクチャは、トレーニングプロセス全体でさまざまなポリシーに優先順位を付ける適応メカニズムを使って、探索から活用までの一連のポリシーをエンコードするニューラルネットワークを構成する。トレーニングの安定性を高めることにより、長期的なクレジット割り当ての問題に対処するよう改善された。これらの改善により、Agent57はすべてのゲームでス、コアについてNGUよりも高い中央値を達成した。さらに、Agent57は、以前のAIシステムではまったくプレイできなかったゲームで人間のスコアを上回った。

DeepMindの研究の多くは碁などの古くからあるボードゲームやビデオゲームなどのゲームをプレイするためのAIにフォーカスを当てている。しかし、チームによれば、彼らの目標は「幅広い課題に対して優れた結果を出すシステムの開発の足がかりとしてゲームを使用する」ことである。研究者は一連のAtari 2600ゲームをRLパフォーマンスの良いベンチマークと見なしている。その理由は、各ゲームは実用的な課題を表すのに十分興味深く、ゲームパッケージ全体に一般的な課題を示すのに十分な多様性が含まれているためである。長年の研究といくつかのゲームで人間レベルのパフォーマンスを達成した最初のシステムであるDeep Q-Networksのいくつかの改善にもかかわらず、「深層強化学習エージェントはすべて、MontezumaのRevenge、Pitfall、Solaris、Skiingの4つのゲームで一貫してスコアを獲得できなかった」。これらのゲームで成功するには、システムがRLの2つの困難な問題を解決する必要がある。それは、探索・活用問題と長期的なクレジット割り当て問題である。

探索・活用のトレードオフは、エージェントがすでに学習した戦略の選択と新しい戦略の探索の間でバランスを取る必要があるということである。PitfallやMontezuma's Revengeなどのゲームでは、報酬を得る前に、エージェントがゲームの「世界」を探索する必要がある。Agent57の前身であるNGUは、新しいゲームの状態を検出することで生成される内在する報酬を使用した。次に、探索・活用に関する一連のポリシーを学習する。Agent57は、トレーニング中に探索・活用のトレードオフを調整するマルチアームバンディットメタコントローラーを使用して、これに改良を加えた。

長期的なクレジット割り当ての問題は、エージェントが行うアクションに対する報酬が遅れると発生する。たとえば、ゲームSkiingでは、ゲームの終了までスコアがないため、システムは最初に行われたアクションの効果を簡単に学習できない。NGUに対するAgent57の改善点は、エージェントのニューラルネットワークを2つの部分に分割することである。1つはアクションに対して内在する報酬を予測することを学習し、もう1つは外来性の報酬を予測することである。研究者たちは、これがトレーニングの安定性を「大幅に」高めたことを発見した。

DeepMindチームは、Agent57のパフォーマンスを、NGU、Recurrent Replay Distributed DQN（R2D2）、MuZeroなどの他のいくつかのシステムと比較した。 MuZeroはスイート全体で最高の平均スコアと中央値スコアを持っているが、「恐ろしいほどに」に一部のゲームをプレイすることができず、それらのゲームではランダムポリシーと同等のスコアとなっている。Agent57は、最もハードな20％のゲームで最高のスコアを獲得し、すべてのゲームで人間のパフォーマンスを超える唯一のシステムである。

Agent57に関するHacker Newsのディスカッションで、1人のユーザーが述べた。

この全体的な進化は、人々が特定の問題を「解決」するために複雑さを増し続ける1980年代のエキスパートシステムにますます見えています。RLでは、エレガントなシンプルなDQNから始めましたが、新しいアルゴリズムはバンドエイドのごちゃ混ぜのように見えます。NGUは、そのままでは非常に複雑で、さまざまなパッチのその場その場のミックスのように見えます。NGUで、ことわざのkitchen sink（なんでもかんでも）を完成させるために、私たちはメタコントローラー、さらにはバンディットさえも投入しています。

DeepMindは2010年にスタートアップとして立ち上げられ、2014年にGoogleに買収された。DeepMindは、2016年に人間でもっとも上手い碁のプレイヤーの1人を打ち負かしたAlphaGo AIを開発した。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方