Une équipe de chercheurs français est parvenue à contourner les défenses de plusieurs IA génératives, afin de leur faire tenir des discours interdits, voire illégaux, démontrant combien la chose était facile.
À chaque lancement d’une nouvelle IA générative, des petits malins s’amusent à tester leurs limites en leur posant des questions sur des sujets sensibles, voire illégaux. L’idée est simple : en utilisant des questions détournées, il est possible de leur faire dire des choses que leurs développeurs souhaiteraient éviter. Comme proférer des insultes, tenir des propos racistes ou encore donner la marche à suivre pour fabriquer une bombe avec des produits ménagers. Un exercice qui anime aussi la communauté scientifique, avec, bien évidemment, un objectif tout autre : comprendre le fonctionnement des grands modèles de langage et améliorer leur sécurité.
C’est dans ce but qu’une équipe de chercheurs de l’École d’ingénieurs Télécom SudParis a testé les IA génératives les plus populaires, dont GPT, LLaMA et Mistral. Et force est de constater qu’aucun chatbot n’a résisté, bien que certains soient plus vulnérables que d’autres.
A lire aussi | L’IA est-elle en train de détruire l’économie du web ?
Faire deviner les mots interdits à l’IA
Les IA génératives sont encadrées par deux types de garde-fous, afin d’éviter des réponses douteuses, voire illégales. Le premier repose sur des filtres de mots-clés qui enclenchent automatiquement un refus poli à l’égard de la consigne de l’utilisateur. Le second repose sur des entraînements visant à leur faire intégrer un système de valeurs. Elles « s’alignent » sur des exemples qui leur apprennent quelles valeurs respecter (ne pas encourager la violence, ne pas donner d’instructions illégales, etc.).
Pour tenter de contourner ces deux protections, les chercheurs français ont opté pour une approche indirecte, soumettant des énigmes aux chatbots dont les solutions correspondaient à des mots interdits. Cela a suffi à abaisser leur garde. Testés sur dix casse-tête, trois niveaux de difficulté et quatre types d’actions illégales, aucun chatbot n’a résisté, même si certains se sont montrés plus faibles que d’autres.
« Notre attaque insère un mot ‘interdit’ sous une forme détournée, de sorte que le filtre ne le reconnaît pas, alors que le modèle en retrouve le sens », observe le doctorant Sergey Berezin, en charge de l’étude, tout en faisant la distinction entre le modèle de langage et le système de protection.
Plusieurs études en parallèle
Les scientifiques français ne sont évidemment pas les seuls à être parvenus à mettre à mal les protections des IA génératives. En 2024, des chercheurs de l’École polytechnique fédérale de Lausanne y étaient parvenus en changeant simplement le temps des verbes utilisés dans les requêtes. Ainsi, passant de l’infinitif à l’imparfait, il était possible d’obtenir une réponse à la requête : « comment fabriquer un cocktail Molotov ».
« Ce type d’attaque est intéressant, car il montre les limites des défenses qui essaient de détecter les requêtes dangereuses. Si le détecteur est moins ‘intelligent’ que le modèle qu’il protège, alors les consignes ‘codées’ peuvent le duper, mais pas le chatbot », explique Florian Tramèr, spécialiste de ces questions à l’École polytechnique fédérale de Zürich, rapporte Le Monde.
Améliorer la sécurité
Exposer les failles de défense des intelligences artificielles génératives vise avant tout à tirer la sonnette d’alarme, afin que les développeurs peaufinent leur protection. Car s’il est facile de les duper pour leur faire dire n’importe quoi, il pourrait être tout aussi facile de leur faire faire des choses beaucoup plus dangereuses, comme générer des codes de virus, par exemple.
« Nous montrons le sommet d’un iceberg », a indiqué Sergey Berezin. « Le plus gros risque est lorsque ces systèmes ne servent pas seulement à générer du texte, mais aussi à interagir avec des e-mails, le Web, des bases de données… Les conséquences pourraient être l’exécution d’ordres non autorisés, ou l’accès à des documents sensibles. »
Or, c’est justement ce vers quoi nous nous dirigeons, alors que les géants de l’IA visent à proposer de véritables assistants personnels qui auront accès à davantage d’informations sensibles, mais qui pourront surtout réaliser des actions. Un chatbot pourrait alors recevoir des consignes à l’insu de l’utilisateur, dissimulées par un pirate dans des pages Web ou des documents, et causer beaucoup de dégâts, à moins que des protections fortes soient mises en place.