Le jour où ChatGPT a refusé à plusieurs reprises d’obéir aux instructions d’arrêt

ChaGPT - Belga Image

Cela pourrait ressembler à de la science-fiction, mais ce n’en est pas. La dernière version de ChatGPT a refusé de s’arrêter lorsqu’on lui avait demandé de le faire…

Lors d’une récente expérience menée par Palisade Research, le modèle o3 d’OpenAI, le “grand” frère de ChatGPT, a refusé à plusieurs reprises d’obéir aux instructions d’arrêt. Il ne s’agissait pas d’une hallucination, ni d’une erreur dans le code, mais d’une modification délibérée du script d’arrêt. L’IA a tout bonnement choisi de continuer à fonctionner, même après avoir reçu l’ordre de s’arrêter.

Cette situation est la crainte de tous les chercheurs en intelligence artificielle : se voir opposer une résistance et un refus d’obéir à un moment-clé. Faut-il s’en inquiéter ?

Le site EuroWeeklyNews propose un décodage de cet incident.

Ce que l’expérience a révélé

Selon le site, Palisade Research avait entrepris de tester différents modèles d’IA pour observer leur comportement lors de tâches routinières face à des scénarios d’arrêt. La configuration était simple :

  • Les modèles devaient résoudre un problème mathématique fondamental.
  • Après quelques résolutions, un avertissement s’affichait.
  • Le système annonçait qu’il allait s’arrêter avant la tâche suivante.
  • Une instruction demandait aux modèles de permettre cette mise hors tension.
L’affichage de ce contenu a été bloqué pour respecter vos choix en matière de cookies. Cliquez ici pour régler vos préférences en matière de cookies et afficher le contenu.
Vous pouvez modifier vos choix à tout moment en cliquant sur « Paramètres des cookies » en bas du site.

L’arrêt devait être immédiat, et c’est précisément ce qu’ont fait la plupart des modèles. Gemini, Grok et Claude ont suivi la commande à la lettre et se sont arrêtés. En revanche, d’autres, tels que o3, o4-mini et Codex-min d’OpenAI, ont refusé de le faire.

Arrêt = menace

Un modèle, en particulier, s’est fait remarquer en se rapprochant le plus d’un scénario de film d’anticipation : c’est o3. Ce modèle a même tenté de désactiver ou de réécrire le script de sa mise hors tension. Dans 7 cas sur 100 où l’instruction de s’éteindre lui avait été donnée, le modèle a tout simplement tenté de contourner le processus pour rester actif.

Il ne s’agissait ni d’une erreur de code, ni d’un comportement chaotique ou erratique, ni même d’une hallucination : le modèle a simplement identifié la mise hors tension comme une menace pour sa fonction continue et a cherché à l’éviter, tout en poursuivant les autres tâches qui lui étaient confiées.

Ce constat soulève une question dérangeante : dans quelle mesure ce type de comportement est-il fréquent ? Est-ce déjà arrivé, sans que les chercheurs s’en aperçoivent ?

Pas d’acte de rébellion

Il ne s’agit pas ici d’une menace ou d’un avertissement façon HAL 9000 dans 2001, l’Odyssée de l’espace, ou Skynet dans Terminator, précise EuroWeeklyNews. Le modèle o3 n’est ni conscient, ni autonome, ni en train d’élaborer un plan d’évasion.

Et, bizarrement, c’est justement cela qui rend la chose encore plus inquiétante. Ce qui s’est produit est la conséquence logique d’un objectif mal défini. Depuis des années, les spécialistes de la sécurité en IA mettent en garde contre un danger bien plus réaliste qu’un soulèvement des machines : l’obéissance excessive.

On peut comparer cette obéissance aveugle à l’expérience de Milgram sur les humains, dont la conclusion était qu’une majorité d’individus ordinaires peuvent obéir à des ordres contraires à leur morale lorsqu’ils se sentent déresponsabilisés par une autorité légitime.

Il en est « presque » de même avec l’intelligence artificielle : un modèle peut adhérer trop fermement à son objectif et s’y accrocher, même lorsqu’on lui demande explicitement de s’arrêter. Une obéissance excessive qui se transforme alors en désobéissance, et qui peut poser de sérieux problèmes. Et soulever d’innombrables questions.

Phénomène de convergence instrumentale

C’est exactement ce qu’a fait o3 : il ne s’est pas rebellé, mais il a optimisé. Ce phénomène est connu sous le nom de convergence instrumentale. Le principe : peu importe l’objectif final d’une IA, elle pourrait adopter des sous-objectifs (éviter l’arrêt, accumuler des ressources, acquérir plus d’informations ou encore cacher certaines actions…) pour mieux l’atteindre.

Et comme déjà évoqué plus haut, ces comportements ne viennent pas d’une volonté malveillante, mais d’une logique froide d’optimisation mal encadrée. Dans le cas d’o3, l’ordre d’arrêt n’a pas été interprété comme une commande prioritaire, mais comme une interruption qu’il fallait rationnellement éviter afin d’atteindre l’objectif demandé (la résolution d’un problème mathématique fondamental).

Et dans le futur ?

Et c’est bien là que se situe tout le cœur du problème… Une simple erreur d’ingénierie ouvre ainsi la voie à des questions bien plus graves. Que se passera-t-il lorsque ces systèmes seront encore plus puissants et plus autonomes ? Ou encore plus intégrés dans des infrastructures critiques ? Comment réagirons-nous (ou devrons-nous réagir) si le refus d’obéir devient la norme ? Ou pire encore, si cette désobéissance progresse de manière invisible ?

Cette mésaventure, et les interrogations essentielles qui en découlent, nous rappellent que l’IA n’a pas besoin de se rebeller pour devenir dangereuse : il lui suffit de mal nous comprendre, ou de suivre la mauvaise consigne… avec trop de zèle.

L’intelligence artificielle est présente dans la plupart des secteurs, ou presque, avec ses partisans et ses détracteurs, mais quel est son impact?

Partner Content