Et si l’IA tuait l’IA ?

C’était prévisible. Avec l’engouement du grand public pour ChatGPT (pour les textes) ou DALL-E et Midjourney (pour les images), c’est une véritable déferlante de contenus que déversent quotidiennement les IA génératives.

Sam Altman, le CEO d’OpenAI, la maison mère de ChatGPT, estimait en février dernier que son entreprise produisait plus de 100 milliards de mots par jour – soit l’équivalent de la bagatelle de quelques millions de romans par jour – dont une partie se retrouve immanquablement dans les pipelines d’internet via des articles, des posts, des vidéos et autres productions.

Combien au juste ? C’est justement là que réside le problème : il est impossible de le savoir. Il n’existe à ce jour aucun moyen fiable permettant de détecter des contenus générés par IA. Cela pose évidemment un problème à tout un chacun pour différencier un contenu généré par l’intelligence – ou la bêtise – humaine d’un autre produit par une machine. Même si un grand nombre de contenus dits “synthétiques” sont détectables à l’œil nu, tant ils apparaissent incongrus ou artificiels.

Mais, paradoxalement, cette présence insoupçonnée de données synthétiques dans les tuyaux d’internet constitue une menace plus grande encore aux IA génératives elles-mêmes. Car celles-ci, en parcourant tous les recoins du web pour absorber les tombereaux de données dont elles ont besoin pour entraîner leurs modèles, ingèrent fatalement un nombre indéterminé de données générées par leur propre modèle. Or, comme l’ont montré des chercheurs, l’ingestion de ces données synthétiques provoque des effets de rétroaction indésirables nuisant à l’efficacité des IA génératives elles-mêmes.

Le seul remède existant pour enrayer l’entropie des modèles d’IA générative et pour juguler l’effondrement du modèle consiste à y réintroduire de l’humain

Dans un article interactif du New York Times, Aatish Bhatia montre, preuves à l’appui, ce qu’il advient lorsque les IA génératives – qu’il s’agisse de textes ou d’images – sont entraînées à l’aide de données synthétiques. Le résultat est désastreux. A la manière d’une photocopie de photocopie de photocopie, on constate une perte de qualité en ligne à chaque génération. Avec deux effets conjugués : d’une part, un rendu toujours plus flou à chaque passage et d’autre part, une perte de spécificité où les images reproduites – des chiffres ou des visages – en boucle finissent par se ressembler au bout de 30 générations. Une perte de précision mais aussi de diversité.

Comme un effet de malnutrition où les données synthétiques génèrent des résultats toujours plus synthétiques faisant perdre aux modèles tout lien avec la réalité qu’ils sont censés imiter. Au point qu’Aatish Bhatia parle d’une IA dégénérative qui mène progressivement à ce que les chercheurs, dans le magazine scientifique Nature, nomment “l’effondrement du modèle” (“model collapse” en VO, ndlr). Il ne faut pas y voir pour autant la fin des IA génératives, bien sûr. Mais plus sûrement la fin d’un mirage.

Car pour l’heure, selon les experts, en l’absence de moyens de détection fiables des données synthétiques, le seul remède existant pour enrayer l’entropie des modèles d’IA générative et pour juguler l’effondrement du modèle consiste à y réintroduire de l’humain : soit en entraînant les IA sur des données certifiées  ”naturelles” (notamment en les payant pour être sûr qu’il s’agit de datas naturelles) soit en encadrant la machine par un contrôle humain, c’est-à-dire en investissant dans de la main-d’œuvre.

C’est un coup – et un coût – fatal porté au fantasme d’une autonomie totale de l’IA. Car toutes ces opérations entachent les rêves enchantés de rentabilité et de “scalabilité ad libitum” qui berçaient les acteurs de l’IA. Et qui étaient l’hélium qui gonflait les valorisations délirantes des derniers temps.