DeepMindのAIがStarCraftのトッププレイヤーに勝利

原文(投稿日：2019/04/05)へのリンク

DeepMindのAlphaStar AI プログラムが最近、StarCraftの2人のトッププロプレイヤーに5-0で勝利した。

DeepMindチームはStarCraft II-をプレイするAlphaStarと呼ばれるAIプログラムについて書いている。AIプログラムは2人のハイランクのプロプレイヤーと対戦し、双方に5-0で勝利した。研究者は2009年からStarCraft用のAIを開発しているが、年に1度の対人試合では”最強のボット[でさえも]現在では人間のアマチュアレベルである”。

AIプログラムにリアルタイムストラテジ(RTS)ゲームを教えるのは、いくつかの理由により困難である。まず、チェスや碁のような古典的なストラテジゲームと違い、プレイヤーはゲーム全体を見渡すことが一切できない。アクションの効果が出るまで長い時間が掛かり、プレイヤーはターンごとにひとつのアクションを起こすのではなく、リアルタイムに、継続的にアクションを取らなければならない。また、ゲームのアクションスペースがはるかに広い：明確に定義された合法なセットを作る一握りの”ピース”ではなく、StarCraftゲームにはグルーピングや階層して管理できる何十もの建物やユニットがある。

2017年、DeepMindはStarCraftの生みの親であるBlizzard Entertainmentとのパートナーシップについてブログ記事を公開した。ゲームをプレイするAIの開発におけるものだ。DeepMindはBlizzardのStarCraft II API周りのPythonラッパーであるPySCを、研究努力の一部としてオープンソース化した。

AlphaStarは、その振る舞いをコントロールするのにディープ・ニューラル・ネットワークを利用している；ネットワークへのインプットはゲームインターフェースからのデータであり、アウトプットはゲームへのコマンドである。技術の詳細は明かされていないものの、ブログ記事には、ネットワークは”Transformerからユニット(関係深層強化学習に似たもの)で構成されており、ディープLSTMコア、ポインターネットワークを備えた自己回帰ポリシーヘッド、および集中[sic]ベースラインを組み合わせたもの”と書かれている。

ネットワークは初め、公開された人間同士の対戦サンプルによる教師あり学習を使って訓練された。その後、このネットワークのコピーまたはエージェントを使って、マルチ・エージェント”リーグ”が作られた。互いに対戦し、強化学習(RL)の技術を使って競技に磨きを掛けていった。そのうち、エージェントは停止となり、RL改善のための新しいコピーがリーグに追加された。この方法で、システムは新しい戦略を探れる。戦略を未修正で学習したエージェントをキープすることで、以前に学習した戦略を”思い出す”と同時に、古いもののコピーによる新しいエージェントを訓練するのだ。リーグを訓練するため、DeepMindは14日間Google's v3 TPUsで稼働する分散システムを建てた。1エージェントにつき、16 TPUを使う。最後のエージェントは、リーグにおけるエージェントの”最も効果的な戦略ミックス”で構成された試合で利用された。

DeepMindは論文審査のある専門誌で全容を説明する準備している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方