IA générale ou complète

En 2 mots. Le Graal des chercheurs en IA : celle qui dit papa, maman, capable de toutes les prouesses, d’apprendre toute seule ou presque, bref de passer le test de Turing sans artifice, celle qui faisait peur à Hawking et à d’autres, car l’homme deviendrait inutile.

Aujourd’hui les progrès de l’IA et de la robotique permettent tout juste de mettre en chômage endémique une partie non négligeable de la population la moins qualifiée.

Et pourtant il n’y a guère de jours où l’on ne signale un progrès dans des domaines variés : reconnaissance de visages, traduction automatique, diagnostics divers et variés, actions adaptatives de robots etc...

Des limites des Réseaux Neuronaux artificiels

La plupart du temps, ces progrès sont attribués à « l’apprentissage profond » à l’aide de réseaux neuronaux, soit de simples « perceptrons » multicouches, soit de réseaux neuronaux plus perfectionnés (convolutifs par exemple) ou utilisés en tandem (réseaux antagonistes).

On cite abondamment dans la littérature les faiblesses des RN :

faible explicabilité dûe au côté boîte noire,
taille colossale des ensembles de données nécessaires à l’apprentissage supervisé - en fait les superviseurs sont des petites mains qui étiquettent les données à digérer par le Moloch –,
biais qui peuvent être induits plus ou moins volontairement,
et surtout aucune transposition possible après apprentissage d’un domaine à un autre, même connexe vu de nous.

Le RN n’est ni plus ni moins qu’une machine à interpoler au sein du domaine d’apprentissage. Même si l’aspect statistique de l’apprentissage permet de s’affranchir de certains bruits sur les données d’apprentissage, si ces données sont fausses les interpolations le seront aussi.

Exemple trivial : si l’on étiquette comme chien des chats, alors pour lui les chats seront reconnus comme chiens... On a beaucoup parlé ces derniers temps des biais raciaux ou de genre, causés par des ensembles d’apprentissage eux-mêmes biaisés.

Une autre réalité : les algorithmes d’apprentissage sont des algorithmes à convergence très lente qui nécessitent un nombre énorme d’exemples pour l’apprentissage. Et évidemment plus le domaine est grand, et plus il faudra d’exemples.

Ces algorithmes s’apparentent à des algorithmes de gradient stochastique. Et en plus dans un espace où beaucoup de variables (en entrée et/ou en sortie) sont des variables discrètes. Résultat, ils peuvent se faire piéger dans des optima locaux mauvais, et ceci même si on met en œuvre des métaheuristiques (recuit simulé ou autres, il y en a plein). Le simple fait de changer l’ordre de présentation des données d’apprentissage peut changer le résultat, c’est-à-dire in fine la pertinence de la reconnaissance.

Quant à la faiblesse explicative de l’Oracle ? Énormément de recherches pour lui ouvrir le crâne, trouver des interprétations aux neurones des couches cachées, mais jusqu’à aujourd’hui assez peu de réussites... Cela semble un peu plus facile dans le cas des réseaux convolutifs, qui ont des couches spéciales, inspirées de notre cortex visuel, qui permettent d’extraire des caractéristiques des images et de ne plus travailler au niveau du pixel.

Quant à transposer un RN éduqué sur un domaine, pour en faire un sur domaine même voisin... Passer d’un RN pour reconnaître les chiens à un RN pour chats... Faut pas rêver.

Réconcilier le cerveau gauche et le cerveau droit

L’analogie en l’occurrence est probablement aussi mauvaise que le concept de cerveau reptilien.

Néanmoins, je l’utilise un peu. À ma droite (du cerveau) les RN capables de traiter des volumes de données impressionnants comme ceux d’une image. Mais de façon très automatique et quasi-inconsciente.

À ma gauche tout un pan de l’IA aujourd’hui dans l’ombre : celle des inférences logiques, des réseaux de concepts et autres ontologies, des jadis encensés systèmes experts censés cristalliser la connaissance des experts humains et reproduire leurs raisonnements. À vrai dire, il y en a encore qui luttent vaillamment avec les RN dans des domaines comme l’analyse de demandes de prêts... En tout cas ce cerveau gauche est à la recherche du sens (représentation sémantique).

Peut-être que le salut viendra quand l’on saura associer ces cerveaux droits et ce cerveau gauche : extraire des concepts d’un outil RN de reconnaissance et leurs relations, voir qu’on retrouve à peu près la même structure de concepts dans un autre outil RN, et en déduire un outil plus général.

(Les chiens ont en général 4 pattes, les chats aussi, peut-être existe-t-il une classe d’objets à 4 pattes plus générale. (Et les bipèdes alors ?)).

Une lecture conseillée

Pour arriver à faire ça il faut un méta-outil qui détecte et permette d’analyser les ... analogies !

Et sur ces analogies on pourra faire des raisonnements constructifs.

Il faut d’abord trouver des réseaux de relations similaires entre des concepts d’un domaine A et celles d’un domaine B. Cela s’apparente à la recherche d’homomorphismes dans les graphes, problème résolument non trivial mais pour lequel on peut imaginer des heuristiques.

Ensuite on peut imaginer transposer une relation existant dans le domaine A dans le domaine B duquel elle semble absente. Ensuite encore, il faut vérifier que cette extrapolation de la relation tient la route en réanalysant le domaine B. Soit on gagne et l’analogie se renforce, soit on perd. Mais tout n’est pas perdu car on peut imaginer rechercher ce qui cause cette divergence conceptuelle : par exemple que certaines caractéristiques qui seraient intéressantes étaient absentes du domaine B d’apprentissage, mais peut-être ont-elles un sens quand on passe du virtuel au réel. Rêvons, rêvons...

Je suis loin d’épuiser la richesse du raisonnement par analogie : c’est un mode de raisonnement que nous pratiquons tous intensivement, mais dont on parle très peu en définitive dans le monde de l’IA et des mathématiques.

Et donc je conseille la lecture passionnante du bouquin de Douglas Hofstadter (Gödel Escher Bach) et de Emmanuel Sander : « L’Analogie, Cœur de la pensée ». (Odile Jacob 2013).

Le blog de AHz

lundi 12 avril 2021