SCIENCE ACTUALITÉS.fr

Le magazine qui se visite aussi à la Cité des Sciences

Actualités
Innovation & Technologie

AlphaZero, joueur autodidacte

Il s’appelle AlphaZero et c’est un joueur invétéré. C'est le dernier né de DeepMind, la filiale de Google.

AlphaZero a acquis sa maîtrise des règles du jeu seul, sur la seule base des règles du jeu et de l'entraînement automatique. © DeepMind Technologies Ltd

AlphaZero excelle aux échecs et au jeu de Go et il bat tous les logiciels spécialisés dans ces jeux, exploit qu’aucun être humain n’a jamais réussi à accomplir. Ses concepteurs, une équipe de recherche de la société DeepMind, filiale de Google, ont fait sa présentation officielle dans la revue Science en date du 7 décembre 2018. 

AlphaZero est le frère cadet d’un algorithme du même nom, qui, fin 2017, a battu à plate couture le logiciel numéro 1 du jeu d’échecs, Stockfish. Un résultat d’autant plus spectaculaire qu’AlphaZero n’avait disposé que de quelques heures pour apprendre, seul, le jeu d’échecs.

Tableau des matches entre AlphaZero (AZ) et les logiciels spécialisés dans les échecs (Stockfish), le shogi (Elmo) et le jeu de Go (AGO), à l'issue d'un entraînement de trois jours d'AZ. En vert : victoires d'AZ. En rouge : défaites d'AZ. En gris : match nul. © DeepMind Technologies Ltd

Comme cet aîné célèbre, le nouveau-né est autodidacte. Selon le terme consacré en intelligence artificielle, il apprend « par renforcement ». Au départ, il ne dispose que des règles du jeu, mais d’aucun principe de stratégie ni même des exemples de parties jouées par des humains. Il joue donc au hasard contre lui-même, et au fur et à mesure des parties, dresse des statistiques sur les chances de succès des coups joués. 

Mais là où le nouveau rejeton dépasse son prédécesseur, c’est dans la diversité des jeux de société qu’il est capable de maîtriser. En quelques heures, en effet, avec pour seules informations initiales les règles du jeu, AlphaZero a appris seul à maîtriser les échecs, le shogi et le go. Il a ensuite affronté des logiciels spécialisés dans chacun de ces jeux et les a tous battus. C’est la première fois que son algorithme, de type MCTS pour Monte Carlo Tree Search ou « recherche arborescente Monte Carlo », se révèle aussi performant dans les jeux d’échecs.

Pour que ce petit génie ne s’ennuie pas, DeepMind pourrait bien le confronter, lors d’un défi à venir, à des jeux vidéo multi-joueurs bien différents des échanges à deux sur plateau auxquels AlphaZero est habitué. 

Retour en haut