L'IA De DeepMind Bat Des Joueurs De StarCraft Parmis Les Meilleurs

Le programme d'IA AlphaStar de DeepMind a récemment battu deux des meilleurs joueurs professionnels de StarCraft 5 à 0.

L'équipe de DeepMind a écrit à propos de leur programme d'IA de jeu StarCraft II appelé AlphaStar. Bien que les chercheurs développent l'IA pour jouer à StarCraft depuis 2009, dans les compétitions annuelles contre les joueurs humains, "[même] les bots les plus forts jouent actuellement à un niveau humain amateur".

Apprendre à un programme d'IA à jouer à des jeux de stratégie en temps réel (RTS) est un défi, pour plusieurs raisons. Tout d'abord, contrairement aux jeux de stratégie classiques comme les échecs ou le Go, les joueurs ne peuvent à aucun moment voir l'état du jeu dans son ensemble. Les effets des actions peuvent ne pas être rentables avant longtemps, et les joueurs doivent agir en continu et en temps réel au lieu d'effectuer un seul coup en alternant les tours. De plus, l'espace d'action du jeu est beaucoup plus grand : au lieu d'une poignée de "pièces" qui peuvent faire un ensemble bien défini de mouvements légaux, les parties de StarCraft peuvent contenir des dizaines de bâtiments et des centaines d'unités, qui peuvent être regroupés et contrôlés hiérarchiquement.

En 2017, DeepMind a blogué leur partenariat avec Blizzard Entertainment, les créateurs de StarCraft, pour développer l'intelligence artificielle pour jouer au jeu. DeepMind open-source PySC, un wrapper Python autour de l'API StarCraft II de Blizzard, dans le cadre de leurs efforts de recherche. Cette dernière annonce constitue une mise à jour des résultats de leurs travaux.

AlphaStar utilise un réseau neuronal profond (deep neural network) pour contrôler son comportement ; les entrées sur le réseau sont des données provenant de l'interface de jeu et les sorties sont des commandes pour le jeu. Bien que tous les détails techniques n'aient pas été publiés, le billet du blog indique que "the network consists of a transformer torso to the units (similar to relational deep reinforcement learning), combined with a deep LSTM core, an auto-regressive policy head with a pointer network, and a centralised [sic] value baseline.".

Le réseau a d'abord été formé à l'aide d'un apprentissage supervisé sur des exemples de jeux entre joueurs humains accessibles au public. Ensuite, des copies de ce réseau, ou agents, ont été utilisées pour créer une "ligue" multi-agents. Ils ont joué l'un contre l'autre, améliorant leur jeu en utilisant des techniques d'apprentissage du renforcement (reinforcement-learning ou RL). Avec le temps, les agents ont été gelés et de nouvelles copies ont été ajoutées à la ligue pour amélioration par RL. De cette façon, le système peut explorer de nouvelles stratégies, en formant de nouveaux agents à partir de copies d'anciennes stratégies, tout en "se souvenant" des stratégies précédemment apprises et en gardant les agents qui les ont apprises non modifiées. Pour former la ligue, DeepMind a construit un système distribué qui a fonctionné pendant 14 jours sur les TPU (Tensor Processing Unit) v3 de Google, utilisant 16 TPU par agent. L'agent final utilisé en compétition est "le mélange de stratégies le plus efficace" des agents de la ligue.

DeepMind prépare une description complète du travail qui paraîtra dans une revue à comité de lecture.

Débloquez l'expérience InfoQ complète

Vous n'avez pas encore de compte InfoQ ?

Sujets

Comment Utiliser Le Chiffrement Pour La Défense En Profondeur Dans Les Apps Natives Et Navigateurs

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Les Prédictions De Temps Chez Uber Eats

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Liens utiles

Sélectionner votre région

Evaluer cet article

Ce contenu est dans le sujet Data Science

Sujets liés

Contenu éditorial lié

Contenu sponsorisé lié

Contenu Éducatif

La Nouvelle Version D'Asahi Linux Prend En Charge Les Processeurs Apple M1 Ultra Et M2

PostgreSQL 14 Casse Les Pilotes .NET Et Java Pour PostgreSQL

Docker Desktop 4.6 Pour Mac Améliore Les Performances De Partage

Comment Eviter Le Verrouillage Des Fournisseurs Sans Serveurs Avec Design Patterns ?

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Ballerina : Un Langage De Programmation Orienté Données

La Dette Technique Est Quantifiable En Tant Que Dette Financière : Impossible Pour Les Développeurs

Les Tests De Performance Doivent S'Appuyer Sur Les Tendances

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Grab A Partagé Son Experience Sur La Conception De Plate-formes De Données Distribuées

Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Les Prédictions De Temps Chez Uber Eats

Les Facteurs Clés De La "MFA Fatigue" Dont A Ete Victime Uber

Adoption D'Environnements De Développement À Distance Chez Slack

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco