Intelligence artificielle v/s intelligence humaine : 5 leçons d’AlphaGo

Photo by Google via Getty Images

En 2010, un programme de Go jouait encore au niveau amateur.
En 2015, le programme d’Intelligence Artificielle AlphaGo a gagné contre le champion d’Europe, le chinois Fan Hui, qui joue au niveau professionnel.
En 2016, AlphaGo a gagné contre le Lee Sedol, le « Roger Federer du Go », plongeant
 le monde du Go dans un mélange de fascination et d’effroi.

Je n’ai vu le documentaire de Greg Kohs, AlphaGo – The Movie, que cet automne. En tant que joueuse de Go, bien sûr. Mais aussi en tant que systémicienne, habituée à résoudre des problèmes relationnels : avec soi, les autres et/ou son environnement. Ce documentaire met en scène une relation Intelligence humaine – Intelligence artificielle, porteuse en tant que telle de problèmes et d’apprentissages que j’ai observés par la suite dans plusieurs autres relations entre des humains et diverses formes de technologie.

A l’heure où les confinements successifs nous font sentir avec plus d’acuité l’emprise de la technologie sur nos existences, j’ai eu envie d’explorer tout ça de plus près. Que pouvons-nous apprendre de l’expansion des relations entre l’humain et la machine ?

Une combinaison de croyances limitantes qui mène à une erreur de jugement et de posture vis-à-vis des capacités d’AlphaGo. Intelligence Artificielle :  1 – Le monde entier sauf l’équipe DeepMind : 0 

Au bout d’un quart de siècle de recherches, aucun programme informatique de Go n’avait réussi à dépasser le niveau d’amateur débutant.

Quand DeepBlue avait battu Kasparov aux Échecs en 1997, tout le petit monde du Go s’était rengorgé. Une machine à forte capacité de calcul combinatoire pouvait battre un humain aux Échecs, pas au Go. Cela arriverait un jour peut-être, mais lointain. En effet, jouer au Go demande de l’intuition, de la créativité… et ça, croyait-on alors, ça ne se calcule pas. Pour concevoir un programme qui saurait vraiment jouer au Go, il faudrait (croyance corollaire) que la programmation informatique ait réalisé des progrès qu’elle n’avait pas encore faits. Si j’en crois les informaticiens de mon entourage, ces avancées espérées permettraient alors de résoudre tout un tas d’autres problèmes que l’informatique du début du XXIème siècle ne savait pas résoudre.

En 2015, AlphaGo développé par l’équipe du Britannique Demis Hassabis, a flanqué une volée à Fan  Hui, trois fois champion d’Europe.

Cela représentait déjà une avancée spectaculaire et totalement inattendue par rapport à tous les efforts de développement précédents. Un an plus tard, grâce à la collaboration entre l’équipe de Hassabis et Fan Hui, AlphaGo battait 4 à 1 le génie Coréen du Go Lee Sedol. Fait remarquable, AlphaGo a été conçu et amélioré par une équipe dont le niveau de Go était très inférieur à celui de Lee Sedol et des principes de programmation assez classiques, aux dires mêmes des concepteurs d’AlphaGo et des informaticiens avec lesquels j’ai pu parler. La capacité de calcul et d’auto-apprentissage du programme sont tels qu’il a pris le monde entier par surprise, provoquant un véritable séisme dans le monde du Go.

 

L’asymétrie émotionnelle enferme l’humain dans une solitude et accentue un rapport de forces favorable à l’Intelligence Artificielle. AlphaGo  2 – Lee Sedol 0. 

Une défaite humiliante

Perdre est une chose. Perdre après avoir publiquement sous-estimé son adversaire en est une autre. Et perdre une seconde fois après avoir compris qu’il fallait prendre l’adversaire au sérieux est vraiment terrible.

Une relation sans relation

Le programme n’a aucune notion de tout ça et l’humain porte seul la charge émotionnelle de la situation. J’ai aussi observé que Lee, même si c’est un autre humain en face qui joue les coups proposés par AlphaGo, n’a jamais aucun point de repère émotionnel pour savoir ce que pense ou ressent son adversaire. La machine joue des coups qui paraissent bizarres, voire mauvais – il suffit d’entendre les commentaires offusqués ou hilares des experts qui retransmettent la partie en direct. Lee a beau lever les yeux du jeu pour scruter le visage de l’ingénieur qui lui fait face, ce dernier ne peut le renseigner car il n’est pas l’auteur de ces coups. Il n’est que le messager d’un programme qui a calculé objectivement que c’était le coup qui lui offrait la meilleure probabilité de gagner la partie. Et du reste, AlphaGo gagne encore.

Comment garder confiance en soi quand le seul feedback que l’on reçoit, c’est celui de son impuissance soudaine ?

Alors que la plupart du temps, les visages Asiatiques me paraissent indéchiffrables, je me suis retrouvée, en tant que spectatrice Européenne, submergée par les expressions de doute et de souffrance que je lisais sur le visage de cet homme et surtout, par sa solitude face à cette machine imperturbable. J’ai eu l’impression, à tort ou à raison, que cette solitude émotionnelle a significativement aggravé la chute de confiance en soi de Lee.

Des tentatives de suradaptation qui scellent la défaite de l’Intelligence Humaine face à l’Intelligence Artificielle. AlphaGo 3 – Lee et tous les commentateurs 0 

La suradaptation est une stratégie tentante, mais perdante.

Après deux défaites inexplicables dans sa vision du monde, le champion humain est perdu. D’après tous les commentateurs, il perd son style si créatif à essayer de se suradapter à ce satané programme qui joue des coups que des siècles de théorie jugent mauvais. La suradaptation est une stratégie de survie bien connue dans les relations dysfonctionnelles. Et pour le coup, le résultat est connu d’avance : la perte de soi.   

Les réactions de tous autour de la défaite de Lee montrent que toute l’humanité est touchée par cette victoire de l’Intelligence Artificielle sur l’Intelligence Humaine.

Même les membres de l’équipe AlphaGo, pour qui cette victoire est historique, peinent à se réjouir complètement. Cette victoire est teintée d’une forme de deuil, celle de la suprématie de l’humain sur la machine. Et de compassion pour l’être humain qui avait été chargé de défendre les derniers bastions de l’Intelligence Humaine face à AlphaGo. 

Les limites de nos apprentissages humains apparaissent de plus en plus clairement.

C’est très intéressant de voir que dans le commentaire de la partie, Fan s’écrie « je ne sais pas expliquer pourquoi ce coup est mauvais, je sais juste qu’il est mauvais ! ». Sauf qu’il gagne la partie. Cette remarque est tellement représentative du caractère limitant de nos apprentissages humains…

Leçon n°4 : Trouver la faille
AlphaGo 3 – Lee 1

La revanche de la créativité

Les trois premières manches avaient cruellement mis en avant les limites de l’Intelligence Humaine face à l’Intelligence Artificielles. La quatrième, seule victoire de Lee Sedol dans ce match, a été remportée grâce au génie créatif de Lee. AlphaGo étant programmé pour combiner divers calculs de probabilité, il a été désorienté par un coup improbable, le genre de « coup divin » qui rend une partie de go historique. Pris par surprise, le programme n’a pas su réagir et en coulisse où l’équipe AlphaGo suit en direct ce qui se passe dans le « cerveau de la machine », on le voit perdre les pédales, n’ayant plus de probabilités sur lesquelles s’appuyer.

« Maximiser ses chances de gain » c’est-à-dire ?

Au cours des 3 premières manches, AlphaGo avait démontré ses capacités à négocier de petits avantages dans chaque échange, quitte à jouer des coups jugés « lents » ou « laxistes » par les commentateurs humains. Il y a là une découverte intéressante à mon avis. La règle du Go dit « celui qui a le plus de territoire à la fin a gagné, peu importe le nombre de points d’écarts, ½ point suffit. ». C’est exactement ce que fait AlphaGo : pour maximiser ses chances de gagner d’au moins ½ point, il joue chaque coup là où il a le plus de chances d’obtenir un petit avantage. Bien que jouant au même jeu avec la même règle, les joueurs humains jouent plutôt là où il y a le plus de points à faire. Et donc, pour les commentateurs humains, un coup qui sécurise une petite victoire est « laxiste » s’il existe encore des points à faire ailleurs. Ce biais purement humain du « toujours plus y compris quand ce n’est pas nécessaire » n’a pas échappé à Lee Sedol qui dit en avoir tiré des leçons sur sa manière de jouer. 

Tout ou rien, une stratégie à 180°

Quoi qu’il en soit, puisque le programme avait prouvé sa supériorité à négocier un avantage minimal, il fallait trouver autre chose. A 180 degrés de la troisième manche où il avait perdu à tenter de négocier avec plus fort que lui, Lee a choisi une stratégie de tout ou rien. Une stratégie risquée, certes, mais la seule qui pouvait inverser le rapport de forces. 

La surprise, un fusil à un coup

Il existe donc au moins une stratégie gagnante contre ce programme : la surprise. Le problème, c’est qu’avec un programme qui apprend à chaque partie, la surprise est « un fusil à un coup » comme on dit chez moi. C’est bien pour se tirer d’un mauvais pas, mais ça ne suffit pas. La preuve, c’est que les versions suivantes d’AlphaGo ont gagné 100% de leurs parties en 2016 et 2017 contre tous les champions de Go humains, y compris ceux qui prétendaient faire mieux que Lee.

 

Leçon n°5  : Mettre la puissance de la machine au service de son propre apprentissage

AlphaGo 4 – Lee 1

Le documentaire montre de manière très claire comment se met en place le processus humain de résilience. Aussi bien avec Fan Hui en 2015 qu’avec Lee en 2016, j’ai observé un processus en quatre étapes.

1 Le choc de la défaite

Dans les deux cas, la surprise et l’humiliation vont de pair, menant à un véritable choc émotionnel amplifié par la médiatisation.

2 Trouver les failles

Fan Hui, qui n’avait pas eu le loisir d’en trouver pendant son match, l’a fait au sein de l’équipe de DeepMind dans les mois qui ont précédé le match avec Lee Sedol. Ce faisant, Fan a permis à AlphaGo de progresser au point de gagner contre un adversaire beaucoup plus fort que lui.

Malgré les critiques qui ont été faites par ses pairs et compétiteurs, Lee est le seul qui a trouvé une faille d’AlphaGo dans une partie de compétition. Aussi paradoxal que ça puisse paraître, cette unique victoire, qu’il qualifie lui-même de « victoire sans prix », lui a permis de surmonter cette épreuve et de reprendre son chemin de perfectionnement infini.

 3 Faire le plein d’empathie

La contribution de Fan à la victoire d’AlphaGo contre Lee lui a aussi permis de réparer la blessure d’amour-propre subie lors de sa propre défaite. Pendant le match AlphaGo – Lee, Fan, qui pourrait savourer sa revanche, fait preuve d’une empathie très délicate vis-à-vis de Lee.

Pour Lee, la « victoire sans prix » a été déterminante dans son processus de résilience, mais j’observe aussi que l’empathie dont il a été entouré, de la part de l’équipe adverse mais aussi d’une partie du public, lui a permis

4 Se faire un allié de l’adversaire victorieux

Aussi bien Fan que Lee ont révisé une partie de leurs apprentissages suite à leur confrontation avec AlphaGo et ont amélioré leurs résultats dans les compétitions qui ont suivi cet événement. Quant à ceux qui ont voulu se mesurer à l’ogre AlphaGo ils ont été sèchement battus.

 

L’Intelligence Artificielle aujourd’hui : toujours un enjeu de pouvoir humain

L’AlphaGo de 2015 et 2016 avait appris à jouer en ingurgitant des milliers de parties de joueurs forts. Dès 2017, le petit frère d’AlphaGo, AlphaGoZero, savait en quelques heures acquérir le niveau d’un champion du monde simplement à partir de la connaissance des règles. L’Intelligence Artificielle était capable de créer sa propre Intelligence Artificielle.

En 2018, Elon Musk, l’un des premiers investisseurs de DeepMind, s’inquiétait :

«Il y a beaucoup de risques dans la concentration du pouvoir. Donc, si l’AGI [intelligence générale artificielle] représente un niveau de pouvoir extrême, devrait-il être contrôlé par quelques personnes chez Google sans aucune surveillance? » – Elon Musk.

Mes apprentissages

  • Nos croyances limitantes sur la technologie nous amènent à des erreurs de jugement cuisantes même si elles sont compréhensibles.
  • Ce qui était valable dans des parties entre humains – des apprentissages communs, des conventions théoriques et sociales, des croyances partagées, une dose, même minimale, de communication non-verbale – n’est plus valable avec une machine qui elle, optimise les critères de réflexion qui lui ont été donnés, point final. L’humain se retrouve dans une relation sans relation.
  • La suradaptation est presque toujours une stratégie perdante.
  • Nos apprentissages passés sont parfois nos pires ennemis.
  • Quand une stratégie ne marche pas, un virage à 180°, même risqué est souvent la meilleure chose à faire.
  • La confrontation homme-machine a pour effet secondaire puissant de mettre à jour des biais humains profondément enfouis et donc difficiles à détecter.
  • Si l’apprentissage peut se faire grâce à la machine, la résilience a besoin d’empathie et d’humanité.
  • Les enjeux de pouvoir de l’Intelligence Artificielle sur l’humanité sont encore peu connus, et l’inquiétude croissance à propos des « GAFAM » montre qu’ils sont pour une large part hors de portée du commun des mortels. Apprendre à ne pas se soumettre aveuglément aux IA qui envahissent nos vies est un sujet d’avenir.