Un test pour évaluer l’IA sera-t-il le dernier examen de l’humanité?

Le penseur IA
Illustration. © Getty Images
Vincent Genot
Vincent Genot Coordinateur online news

Les tests pour évaluer l’intelligence artificielle (IA) seront bientôt dépassés. Des chercheurs demandent au public de les aider à élaborer un nouveau questionnaire qu’ils ont baptisé “le dernier examen de l’humanité”.

Avec l’arrivée de ChatGPT o1 (O one), l’intelligence artificielle est désormais capable de raisonnements très complexes. Et les tests actuels pour évaluer cette intelligence seront bientôt complètement dépassés. Des spécialistes de l’IA du Center for AI Safety (CAIS) et de la start-up Scale AI demandent au grand public de les aider à créer un nouveau questionnaire bien plus compliqué qu’ils ont baptisé « Le dernier examen de l’humanité ».

Pourquoi est-il important de créer des questions difficiles pour évaluer les capacités des systèmes d’IA ?

Les systèmes d’intelligence artificielle (IA) sont de plus en plus performants dans de nombreux domaines. Pour mesurer réellement leur progression, il est essentiel de les confronter à des défis significatifs. L’objectif du projet lancé par le CAIS est de rassembler les questions les plus difficiles afin de mieux comprendre jusqu’où ces systèmes peuvent aller et où se situent leurs limites. Créer des questions qui « bloqueraient » l’IA permet de tester ses capacités à résoudre des problèmes complexes que seul un individu exceptionnellement intelligent pourrait résoudre. En effet, les questions difficiles poussent l’IA à sortir de ses schémas d’apprentissage préétablis. Si l’IA parvient à résoudre ces problèmes, cela peut signifier qu’elle s’approche de niveaux de compréhension des humains. Si elle échoue, cela révèle des faiblesses dans sa capacité à généraliser, à réfléchir de manière abstraite, ou à résoudre des problèmes non conventionnels. En outre, les questions soumises aux chercheurs doivent être originales et particulièrement ardues, pas simplement des calculs mathématiques. Elles doivent véritablement exiger une réflexion profonde, mettant à l’épreuve les compétences logiques, analytiques et même créatives des systèmes d’IA.

Comment les questions sont-elles évaluées et quelles sont les étapes du processus ?

Le processus de soumission et d’évaluation des questions comporte plusieurs étapes. Tout d’abord, il faut créer une question extrêmement difficile à laquelle la plupart des humains ne pourront jamais répondre. Une fois la question soumise sur le site internet du CAIS, des systèmes informatiques la testeront pour déterminer si elle n’est pas trop facile. Si elle passe ce test initial, l’étape suivante consiste pour l’auteur à fournir une explication concise de la réponse à la question qu’il a proposée. Cette explication sera alors soumise à un examen par des pairs. Cette révision manuelle supplémentaire est cruciale pour garantir la qualité du benchmark, car elle permet de vérifier si la réponse proposée est correcte et bien justifiée. Si la question est approuvée, elle sera incluse dans une base de données publique, et l’auteur aura la possibilité de devenir co-auteur d’un article scientifique associé au projet.

Quelles sont les récompenses et opportunités pour ceux qui soumettent des questions sélectionnées ?

Ce projet offre aux participants l’opportunité de voir leurs contributions reconnues à un niveau académique international. Les meilleurs contributeurs, en fonction du nombre et de la qualité de leurs questions, auront leur nom mis en avant dans le document final, avec des récompenses financières allant jusqu’à 5000 dollars pour les 50 questions les plus difficiles, et 500 dollars pour les 500 questions suivantes.

En plus de la reconnaissance académique et la rémunération, ce projet offre une opportunité unique de contribuer à l’avancement de la recherche en IA en créant un ensemble de tests qui deviendra un standard pour évaluer la progression future des différentes Intelligences artificielles. Et pour la suite, il faudra juste espérer que la prochaine étape ne consistera pas, pour les machines, à développer un questionnaire afin d’évaluer la pertinence d’une cohabitation avec l’humain. Mais ça, c’est une autre histoire.

Le module pour soumettre des questions pour le Dernier Examen de l’Humanité  est accessible à l’adresse https://agi.safe.ai/submit.

Lire plus de:

Partner Content