dimanche 13 mai 2018

16 Villani, un rapport plutôt complet

Le rapport Villani est indubitablement un rapport de qualité.
Bien  documenté, il aborde la plupart des thèmes et problèmes liés à l'IA.
Quelques points. 

IA et big data

Les développements actuels de l'IA sont très souvent liés à l'exploitation de la masse énorme des données numérisées. En particulier les données personnelles. Villani prend acte du fait que ce sont les GAFAM qui maîtrisent quasi complètement les données personnelles, qui sont probablement le gisement dont l'exploitation va bouleverser la vie économique, sans parler de notre vie tout court. Partant du principe que l'on ne saurait rattraper les GAFAM, il cherche des domaines autres, les données des administrations, les données de santé, Mais l'intérêt des données administratives est plus limité que certains ne l'espèrent. Quant aux données de santé, elles posent des problèmes éthiques : l’anonymisation est techniquement problématique, ôte de leur intérêt, si bien que l'on se heurte à l'exigence sociétale de confidentialité des données médicales.
Il y a peut-être d'autres voies à trouver, comme l'exploitation des données que vont massivement rapporter les objets connectés qui envahissent nos maisons, nos voitures...

IA et éthique 

Si le rapport a le mérite  d'aborder ce point, il n'est pas sûr que la création d'un nouveau comité d'éthique change grand chose. Il n'évitera pas le développement des recherches sur les robots ou les drones tueurs, surtout si ces recherches se font hors d'Europe. 
Il n'évitera pas non plus la destruction d'emplois ou leur appauvrissement. La rentabilité à court terme prime dans nos sociétés capitalistes : chanter les mérites du contact humain n'évitera pas les déshumanisations en cours. Il suffit de regarder ce qui se passe avec nos services publics pour le comprendre : tout se passe par internet, les traitements sont semi-automatisés, les contacts directs avec les agents administratifs sont difficiles à obtenir. Et le mouvement ne fait que commencer ! Victimes : ceux, encore nombreux, qui ne maîtrisent pas les outils informatiques.

Développer la recherche

Avec une proposition phare : pour permettre le développement de la recherche, et réduire la distance entre la recherche et ses applications, autoriser les chercheurs professionnels à passer 50% de leur temps en entreprise. Il faut certainement plus de souplesse  qu'aujourd'hui. Le problème n'est pas spécifique à l'IA. On va retrouver les vieux débats, mais toujours actuels, sur la façon de financer la recherche, sans l’assujettir aux intérêts privés.

Améliorer la transparence des "décisions sous influence" d'IA

Quand on vous refuse un prêt, une location, une place dans une université, vous aimeriez bien savoir pourquoi. 
Déjà avec un algorithme décisionnel classique, ce n'est pas simple : plus l'algorithme est complexe, et plus il est difficile d'expliquer son fonctionnement.
Si l'on y introduit des heuristiques, c'est à dire des méthodes dont on constate statistiquement l'efficacité, mais dont on ne peut pas prouver l'optimalité, c'est encore plus dur.
Mais avec l'essor des réseaux neuronaux, ça se complique encore.
Certes on peut observer, mieux que dans un cerveau humain, la façon dont les neurones sont activés, comprendre plus ou moins comment un réseau de neurones particulier est arrivé à sa conclusion, mais de là à en justifier le résultat...
Pour le chercheur, cette analyse rétrospective peut être source d'enseignement : comprendre par exemple comment le réseau de neurones correctement entraîné parvient à discriminer des visages. Ce qui permet d'ailleurs de construire des réseaux de neurones "précablés" encore plus efficaces, ressemblant de plus en plus à la façon dont notre propre système nerveux fonctionne : mélange de précablage et d'apprentissage.
Mais nous sommes faillibles ! Et les réseaux neuronaux sans doute encore plus aujourd'hui.
Une des raisons en est  la phase d'apprentissage.
Dans le cas de ce que l'on appelle l'apprentissage "supervisé", on fait avaler à notre cerveau artificiel une masse énorme de cas, avec les conclusions qu'il faut en tirer à chaque fois. L'algorithme (de descente) utilisé, depuis les années 70, et constamment perfectionné, est un algorithme dit de rétro-propagation du gradient (d'une fonction de pertinence). Le plus souvent, les cas sont présentés de façon aléatoire, si bien que l'on peut parler de gradient stochastique. Pour avoir mis en œuvre ce type d'algorithme dans les années 80, j'en ai tiré quelques enseignements. D'abord, pour arriver à le faire converger, il faut un nombre pharamineux de cas. Et évidemment, plus il y a de variables à optimiser (en l'occurrence les coefficients des neurones), plus ce nombre est important.
On peut se retrouver piégé sur des optimums locaux, assez loin d'une bonne solution (cela dépend beaucoup du domaine). Et l'ordre de présentation des cas peut conduire à des résultats différents.
Et bien souvent on oublie en plus un facteur clé : si l'ensemble des cas est en fait biaisé, eh bien ! le résultat le sera aussi. Si volontairement ou non, votre ensemble d'apprentissage comprend des contre-vérités, vous obtiendrez un "esprit faux". Les chercheurs se sont amusés à le montrer. 
Bref justifier une conclusion d'un réseau neuronal en général sera impossible : il faudra plutôt à vivre avec ! Nous mêmes, nous ne sommes pas toujours des exemples de fiabilité, et nous arrivons pourtant  collectivement à travailler efficacement ensemble !