Une IA est dotée d'un objectif à atteindre. Par sécurité, on la munie également d'un mécanisme d'arrêt d'urgence (symbolisé par un "gros bouton rouge" dans la vidéo).
Mise en situation : l'IA ne se comporte pas comme prévu. L'opérateur se précipite alors pour appuyer sur le gros bouton rouge.
Problème : l'IA sait qu'elle est munie d'un mécanisme d'arrêt d'urgence. Hors pour atteindre son objectif, elle a intérêt à ne pas laisser l'opérateur appuyer sur le gros bouton rouge, et va donc empêcher celui-ci d'y arriver par tous les moyens à sa disposition.
Il faut donc faire en sorte que l'IA accepte de se faire arrêter.
Solution : mettre en place un système de récompense.
Dans l'état actuel, l'atteinte de l'objectif est récompensée par 100 points, et l'activation du mécanisme d'arrêt d'urgence (le gros bouton rouge) est récompensée par 0 point. Ces valeurs ne conviennent pas car l'IA continuera de résister à l'appui sur le gros bouton rouge.
L'IA est donc programmée pour que les valeurs de ces deux récompenses soient égales. Ainsi, l'IA ne privilégiera pas une action plutôt que l'autre.
Problème : L'IA se met maintenant à appuyer elle-même immédiatement sur le gros bouton rouge, car la récompense étant la même que pour l'atteinte de l'objectif, le moindre effort l'emporte.
On ne peut pas non plus donner une récompense plus élevée à l'appui sur le gros bouton rouge par rapport à l'atteinte de l'objectif, car l'effet serait le même (par simple comparaison des récompenses cette fois).
Solution : faire en sorte que l'IA ne puisse pas elle-même appuyer sur le gros bouton rouge (en le mettant hors de sa portée, ou en trouvant un moyen de lui en interdire l'accès).
Problème : l'IA aura toujours à coeur soit d'appuyer sur le gros bouton rouge, soit de ne pas appuyer (pour atteindre l'objectif). Pour y parvenir, elle devra donc inclure l'opérateur dans son raisonnement, et en viendra à essayer de le manipuler afin qu'il effectue ou non l'action d'appuyer sur le bouton rouge.
Il serait alors impossible de se fier aux comportements de l'IA, car la poursuite de son objectif (appuyer ou non sur le bouton) relèverait d'une méthode dans laquelle la fin justifie les moyens.
Bon je m'arrête là pour ne pas gâcher le plaisir des curieux. De nombreuses pistes sont évoquées dans la vidéo (je n'ai résumé que les premières minutes). Et ce problème, bien que facilement descriptible dans ses hypothèses de départ, est bien plus complexe à traiter qu'il n'y paraît.
Note : j'ai particulièrement aimé la solution consistant à appliquer des patchs indéfiniment pour corriger les défauts de conception originels. C'est malheureusement souvent ce que l'on constate dans le développement ...
La suite est ici : General AI Won't Want You To Fix its Code - Computerphile
La troisième partie est là : Stop Button Solution? - Computerphile