Une IA est dotée d'un objectif à atteindre. Par sécurité, on la munie également d'un mécanisme d'arrêt d'urgence (symbolisé par un "gros bouton rouge" dans la vidéo).
Mise en situation : l'IA ne se comporte pas comme prévu. L'opérateur se précipite alors pour appuyer sur le gros bouton rouge.
Problème : l'IA sait qu'elle est munie d'un mécanisme d'arrêt d'urgence. Hors pour atteindre son objectif, elle a intérêt à ne pas laisser l'opérateur appuyer sur le gros bouton rouge, et va donc empêcher celui-ci d'y arriver par tous les moyens à sa disposition.
Il faut donc faire en sorte que l'IA accepte de se faire arrêter.
Solution : mettre en place un système de récompense.
Dans l'état actuel, l'atteinte de l'objectif est récompensée par 100 points, et l'activation du mécanisme d'arrêt d'urgence (le gros bouton rouge) est récompensée par 0 point. Ces valeurs ne conviennent pas car l'IA continuera de résister à l'appui sur le gros bouton rouge.
L'IA est donc programmée pour que les valeurs de ces deux récompenses soient égales. Ainsi, l'IA ne privilégiera pas une action plutôt que l'autre.
Problème : L'IA se met maintenant à appuyer elle-même immédiatement sur le gros bouton rouge, car la récompense étant la même que pour l'atteinte de l'objectif, le moindre effort l'emporte.
On ne peut pas non plus donner une récompense plus élevée à l'appui sur le gros bouton rouge par rapport à l'atteinte de l'objectif, car l'effet serait le même (par simple comparaison des récompenses cette fois).
Solution : faire en sorte que l'IA ne puisse pas elle-même appuyer sur le gros bouton rouge (en le mettant hors de sa portée, ou en trouvant un moyen de lui en interdire l'accès).
Problème : l'IA aura toujours à coeur soit d'appuyer sur le gros bouton rouge, soit de ne pas appuyer (pour atteindre l'objectif). Pour y parvenir, elle devra donc inclure l'opérateur dans son raisonnement, et en viendra à essayer de le manipuler afin qu'il effectue ou non l'action d'appuyer sur le bouton rouge.
Il serait alors impossible de se fier aux comportements de l'IA, car la poursuite de son objectif (appuyer ou non sur le bouton) relèverait d'une méthode dans laquelle la fin justifie les moyens.
Bon je m'arrête là pour ne pas gâcher le plaisir des curieux. De nombreuses pistes sont évoquées dans la vidéo (je n'ai résumé que les premières minutes). Et ce problème, bien que facilement descriptible dans ses hypothèses de départ, est bien plus complexe à traiter qu'il n'y paraît.
Note : j'ai particulièrement aimé la solution consistant à appliquer des patchs indéfiniment pour corriger les défauts de conception originels. C'est malheureusement souvent ce que l'on constate dans le développement ...
La suite est ici : General AI Won't Want You To Fix its Code - Computerphile
La troisième partie est là : Stop Button Solution? - Computerphile
Je remet ici le meilleur passage :
"C'est que les diplômes, tous les diplômes, ne viennent jamais célébrer l'audace ou la truculence ou la sensibilité d'un candidat mais juste sa propension à recracher en temps et en heure ce que son esprit aura retenu de ses heures passées à étudier les savants ouvrages recommandés par le corps professoral. Ni plus ni moins. La seule et unique qualité d'un diplômé c'est sa vertu à ingurgiter tout un tas de connaissances sans jamais les questionner, dans cette obésité du savoir qui, s'appuyant sur une mémoire infaillible et un vernis de talent, permet à un individu de plastronner le jour de l'examen tout en demeurant, à l'intérieur de lui, un parfait et somptueux crétin."
Je remets ici la courte citation de Charles Gave:
"Le drame de la France, c’est de faire 2 erreurs logiques absolument incroyables.
La première, c’est de penser que ceux qui ont fait les meilleures études sont les plus intelligents. Ce n’est pas vrai du tout et c’est très difficile à faire admettre ! Quand j’étais étudiant dans mon université aux Etats-Unis, j’avais un professeur que j’aimais beaucoup et qui nous avait posé la question suivante: « Pourquoi croyez-vous qu’on essaie de vous embaucher ? » et on avait tous dit mais il est idiot ce gars là… Eh bien c’est évident, on cherche à nous embaucher parce qu’on est les meilleurs. Or mon professeur a répondu: « pas du tout, vous avez suivi des études et cela montre que vous n’avez aucun caractère ! Si vous aviez eu le moindre caractère, y a longtemps que vous auriez créé votre entreprise… Vous avez montré quoi ? Que vous étiez capable de répéter ce que disaient les professeurs, or cela n’a rien à voir avec l’intelligence. 1ère erreur: intelligence = études, ce n’est pas vrai !
Deuxième erreur, c’est de penser que parce que vous avez fait les meilleurs études, vous êtes le plus à me^me de prendre les bonnes décisions. Y a aucun rapport entre les deux.
A partir de ces 2 erreurs, on a bâti un système d’éducation qui fait monter les gars qui ont une mémoire de cheval et qui n’ont aucun caractère. Ce sont les deux caractéristiques des élites françaises…"
La vidéo intégrale est ici.