Intelligence artificielle v/s intelligence humaine : 5 leçons d’AlphaGo

© capture d’écran Youtube / DeepMind

La semaine dernière, je vous ai raconté comment, grâce au documentaire  AlphaGo – The Movie, le monde a assisté, médusé, à la première victoire d’un programme d’Intelligence Artificielle contre le joueur humain le plus doué de sa génération. Ce que ce documentaire raconte aussi, c’est comment l’intelligence humaine s’est adaptée, une fois le premier choc passé. Retour au match AlphaGo – Lee Sedol, quatrième manche.

Leçon n°4 : Trouver la faille
AlphaGo 3 – Lee 1

La revanche de la créativité

Les trois premières manches avaient cruellement mis en avant les limites de l’Intelligence Humaine face à l’Intelligence Artificielles. La quatrième, seule victoire de Lee Sedol dans ce match, a été remportée grâce au génie créatif de Lee. AlphaGo étant programmé pour combiner divers calculs de probabilité, il a été désorienté par un coup improbable, le genre de « coup divin » qui rend une partie de go historique. Pris par surprise, le programme n’a pas su réagir et en coulisse où l’équipe AlphaGo suit en direct ce qui se passe dans le « cerveau de la machine », on le voit perdre les pédales, n’ayant plus de probabilités sur lesquelles s’appuyer.

« Maximiser ses chances de gain » c’est-à-dire ?

Au cours des 3 premières manches, AlphaGo avait démontré ses capacités à négocier de petits avantages dans chaque échange, quitte à jouer des coups jugés « lents » ou « laxistes » par les commentateurs humains. Il y a là une découverte intéressante à mon avis. La règle du Go dit « celui qui a le plus de territoire à la fin a gagné, peu importe le nombre de points d’écarts, ½ point suffit. ». C’est exactement ce que fait AlphaGo : pour maximiser ses chances de gagner d’au moins ½ point, il joue chaque coup là où il a le plus de chances d’obtenir un petit avantage. Bien que jouant au même jeu avec la même règle, les joueurs humains jouent plutôt là où il y a le plus de points à faire. Et donc, pour les commentateurs humains, un coup qui sécurise une petite victoire est « laxiste » s’il existe encore des points à faire ailleurs. Ce biais purement humain du « toujours plus y compris quand ce n’est pas nécessaire » n’a pas échappé à Lee Sedol qui dit en avoir tiré des leçons sur sa manière de jouer. 

Tout ou rien, une stratégie à 180°

Quoi qu’il en soit, puisque le programme avait prouvé sa supériorité à négocier un avantage minimal, il fallait trouver autre chose. A 180 degrés de la troisième manche où il avait perdu à tenter de négocier avec plus fort que lui, Lee a choisi une stratégie de tout ou rien. Une stratégie risquée, certes, mais la seule qui pouvait inverser le rapport de forces. 

La surprise, un fusil à un coup

Il existe donc au moins une stratégie gagnante contre ce programme : la surprise. Le problème, c’est qu’avec un programme qui apprend à chaque partie, la surprise est « un fusil à un coup » comme on dit chez moi. C’est bien pour se tirer d’un mauvais pas, mais ça ne suffit pas. La preuve, c’est que les versions suivantes d’AlphaGo ont gagné 100% de leurs parties en 2016 et 2017 contre tous les champions de Go humains, y compris ceux qui prétendaient faire mieux que Lee.

 

Leçon n°5  : Mettre la puissance de la machine au service de son propre apprentissage

Le documentaire montre de manière très claire comment se met en place le processus humain de résilience. Aussi bien avec Fan Hui en 2015 qu’avec Lee en 2016, j’ai observé un processus en quatre étapes.

1 Le choc de la défaite

Dans les deux cas, la surprise et l’humiliation vont de pair, menant à un véritable choc émotionnel amplifié par la médiatisation.

2 Trouver les failles

Fan Hui, qui n’avait pas eu le loisir d’en trouver pendant son match, l’a fait au sein de l’équipe de DeepMind dans les mois qui ont précédé le match avec Lee Sedol. Ce faisant, Fan a permis à AlphaGo de progresser au point de gagner contre un adversaire beaucoup plus fort que lui.

Malgré les critiques qui ont été faites par ses pairs et compétiteurs, Lee est le seul qui a trouvé une faille d’AlphaGo dans une partie de compétition. Aussi paradoxal que ça puisse paraître, cette unique victoire, qu’il qualifie lui-même de « victoire sans prix », lui a permis de surmonter cette épreuve et de reprendre son chemin de perfectionnement infini.

 Faire le plein d’empathie

La contribution de Fan à la victoire d’AlphaGo contre Lee lui a aussi permis de réparer la blessure d’amour-propre subie lors de sa propre défaite. Pendant le match AlphaGo – Lee, Fan, qui pourrait savourer sa revanche, fait preuve d’une empathie très délicate vis-à-vis de Lee.

Pour Lee, la « victoire sans prix » a été déterminante dans son processus de résilience, mais j’observe aussi que l’empathie dont il a été entouré, de la part de l’équipe adverse mais aussi d’une partie du public, lui a permis

4 Se faire un allié de l’adversaire victorieux

Aussi bien Fan que Lee ont révisé une partie de leurs apprentissages suite à leur confrontation avec AlphaGo et ont amélioré leurs résultats dans les compétitions qui ont suivi cet événement. Quant à ceux qui ont voulu se mesurer à l’ogre AlphaGo ils ont été sèchement battus.

 

 

L’Intelligence Artificielle aujourd’hui : toujours un enjeu de pouvoir humain

L’AlphaGo de 2015 et 2016 avait appris à jouer en ingurgitant des milliers de parties de joueurs forts. Dès 2017, le petit frère d’AlphaGo, AlphaGoZero, savait en quelques heures acquérir le niveau d’un champion du monde simplement à partir de la connaissance des règles. L’Intelligence Artificielle était capable de créer sa propre Intelligence Artificielle.

En 2018, Elon Musk, l’un des premiers investisseurs de DeepMind, s’inquiétait :

«Il y a beaucoup de risques dans la concentration du pouvoir. Donc, si l’AGI [intelligence générale artificielle] représente un niveau de pouvoir extrême, devrait-il être contrôlé par quelques personnes chez Google sans aucune surveillance? » – Elon Musk.

Premiers enseignements

 

  • Quand une stratégie ne marche pas, un virage à 180°, même risqué est souvent la meilleure chose à faire.

  • La confrontation homme-machine a pour effet secondaire puissant de mettre à jour des biais humains profondément enfouis et donc difficiles à détecter.

  • Si l’apprentissage peut se faire grâce à la machine, la résilience a besoin d’empathie et d’humanité.

  • Les enjeux de pouvoir de l’Intelligence Artificielle sur l’humanité sont encore peu connus, et l’inquiétude croissance à propos des « GAFAM » montre qu’ils sont pour une large part hors de portée du commun des mortels. Apprendre à ne pas se soumettre aveuglément aux IA qui envahissent nos vies est un sujet d’avenir.

    Références

    AlphaGo, Wikipedia, Wikipedia

    Match AlphaGo – Lee Sedol, Wikipedia

    Jeu de go : pour Lee Sedol, la victoire de la machine est moins tactique que psychologique, William Audureau in Le Monde, 15 mars 2016

    Why is Elon Musk afraid of AlphaGoZero?, Nikhil Menon in Dubai 2018 AI Show