La révolution de l’intelligence artificielle cache une faille inquiétante : à force de s’entraîner sur des contenus générés par d’autres IA, les modèles s’enferment progressivement dans une boucle stérile, ce qui appauvrit la qualité de leurs productions. Ce phénomène, baptisé « consanguinité numérique » ou « cannibalisme des données », pourrait conduire à un effondrement de l’innovation et menacer l’équilibre même de l’écosystème technologique.
La “consanguinité numérique” ou “cannibalisme numérique” ou encore, plus fort “inceste numérique” cache un phénomène préoccupant : les intelligences artificielles s’entraînent de plus en plus sur des contenus déjà générés par d’autres IA, plutôt que sur des données authentiquement créées pas des humains. Ce recyclage permanent risque de transformer les modèles en machines tournant à vide, prisonnières de leurs propres productions. La menace est bien réelle car d’après une étude relayée par le Journal du Geek, l’ensemble des textes produits par l’humanité pourrait avoir été absorbé par les IA entre 2026 et 2032.
Une régression de l’IA
Le site français des Numériques donne un exemple concret pour illustrer cet phénomène. Une première image générée par Dall-E d’OpenAI se retrouve publiée sur l’Internet. Une seconde image sur la même thématique est générée par l’IA de MidJourney. Une troisième l’est de nouveau par un autre modèle de génération d’images, et ainsi de suite. Au fur et à mesure que les modèles consultent les illustrations créées et en génèrent de nouvelles, les erreurs de génération — certes minimes au départ — s’amplifient et deviennent de plus en plus visibles. Chaque modèle enregistre et réplique les erreurs commises sur la version précédente. À l’œil humain, les images perdent progressivement leur sens, ce qui entraîne une régression des performances de l’IA, du moins, sur le référentiel de notre perception de l’intelligence artificielle, explique le média français. Ces risques sont aussi valables pour toute autre production (texte, rapport chiffré,…).
Un risque systémique
Une recherche approfondie intitulée “AI models collapse when trained on recursively generated data” publiée en juillet 2024 dans la prestigieuse revue scientifique Nature analyse la consanguinité numérique. Elle confirme que ce n’est pas un concept vague, mais bien documenté. Lorsque les IA sont entraînées sur des données issues de modèles similaires, elles ont tendance à perdre diversité, pertinence et cohérence. Cette boucle fermée, non maîtrisée, est un risque réel pour l’avenir de l’intelligence artificielle.
Vers un effondrement du modèle
Ce danger dépasse largement la simple bizarrerie technique. C’est un risque systémique, annonciateur d’un effondrement de modèle, confirme un article récent du Figaro. Si rien ne change, l’IA produira des résultats de plus en plus uniformes, stéréotypés, voire obsolètes. À terme, c’est l’innovation, la créativité et la diversité économique qui se retrouvent menacées.
Les conséquences sont multiples et inquiétantes. Ce recyclage incessant appauvrit la diversité des idées, noie les données originales dans un océan de répliques et amplifie les biais déjà présents dans les sources initiales. L’uniformisation menace la richesse culturelle et cognitive, tandis que l’humain, en se reposant de plus en plus sur ces outils, risque d’y perdre sa propre capacité d’innovation.
Lire aussi | Attention, l’IA peut ralentir la science
Syndrome d’autodigestion
Les chercheurs de Nature parlent de « model collapse », aussi connu sous le nom de « Model Autophagy Disorder » (MAD), ou effondrement progressif du modèle. Un syndrome d’autodigestion où les IA, privées de données fraîches et humaines, finissent par reproduire indéfiniment du déjà-vu. À la clé, une perte de pertinence et une crise de confiance qui pourrait fragiliser tout le tissu socio-économique, des médias aux institutions, en passant par les entreprises.
Les acteurs de la Silicon Valley sont conscients du risque de consanguinité numérique et commence à déployer plusieurs parades, même si elles restent fragiles et incomplètes, rapporte le Low Tech Journal. Ils tentent de maintenir un contrôle qualité sur les données et une certaine diversité dans l’écosystème, mais ils se heurtent à une contradiction majeure : plus on a recours aux données synthétiques (faute de données humaines), plus on alimente le problème qu’on essaie de résoudre.
La parade contre la consanguinité
Le Low Tech Journal cite différentes initiatives. Le watermarking : apposer des signatures invisibles sur les contenus générés par IA afin de pouvoir les identifier et les exclure des futurs jeux de données d’entraînement.
La reconnexion aux données humaines : passer des accords avec des producteurs de contenus « réels » comme des banques de données d’images, des médias traditionnels ou des agences de presse, afin d’assurer un flux de données authentiques, variées et légalement exploitables.
La diversification de l’écosystème : éviter la domination de quelques géants et encourager la coexistence de nombreux modèles différents, y compris de plus petits acteurs. L’idée est que la fragmentation limiterait le risque d’un effondrement global si un seul modèle venait à dégénérer.