Un discret changment aux lourdes conséquences: comment Google a “réduit” la taille du web

Getty Images

Google a supprimé sans prévenir un raccourci caché sur son moteur de recherche. Un détail technique qui bouleverse le SEO, l’IA… et l’équilibre du web.

« Un seul être vous manque et tout est dépeuplé », écrivait Lamartine dans son poème L’Isolement. Une réalité à laquelle les professionnels du SEO et les « scrapers d’IA » sont confrontés depuis que Google a décidé d’apporter discrètement un changement à son moteur de recherche. Car depuis que le paramètre d’URL caché « num=100 » a disparu, leur fonctionnement est devenu beaucoup plus coûteux et, surtout, beaucoup plus lent.

Que s’est-il passé ?

Pour comprendre l’ampleur des dégâts de la décision de Google, il faut revenir en arrière. Depuis des années, l’ajout de « num=100 » à la fin de l’URL de recherche permettait d’afficher 100 résultats sur une seule page au lieu de 10 habituellement.

Ce « raccourci caché » de Google Search donnait donc l’accès à une longue liste de résultats (« longue traine ») sans avoir consulter plusieurs pages. Un gain de temps, d’énergie et surtout d’argent pour les entreprises spécialisées dans le SEO, mais aussi pour celles spécialisées dans l’IA, car, dans les deux cas, leurs outils exploitent les résultats de recherche pour en extraire des informations ou des données. Dans le cas des outils SEO, il s’agit avant tout de savoir qui est classé où selon une requête précise, alors que pour ceux de l’IA, il s’agit d’extraire des données des pages listées dans les résultats de recherche Google afin de nourrir un modèle de langage.

Ainsi, avec le paramètre « num=100 », les outils SEO pouvaient suivre les positions 1 à 100 d’un seul coup, au lieu de consulter page par page, et les scrapers IA pouvaient collecter 100 nouvelles URL par requête pour aller extraire le texte derrière chaque lien.

Mais depuis que Google a décidé de retirer cette option, en septembre, leur travail est devenu plus compliqué : ils doivent consulter davantage de pages pour un même résultat.

Pourquoi un tel changement ?

Le docteur Ernesto Lee, enseignant-chercheur spécialisé en IA et data analytics, évoque plusieurs pistes pour expliquer la décision de Google.

  • Freiner le scraping massif pour l’IA : dans la course à l’IA, les recherches Internet sont une véritable mine d’or. Le paramètre « num=100 » avait en réalité aidé les entreprises actives dans l’IA à extraire plus facilement d’énormes quantités de données sans effort. En le supprimant, Google rend la chose plus complexe et surtout plus coûteuse pour ses concurrents – 10 fois plus cher pour atteindre à nouveau au moins 100 résultats.
  • Alléger son infrastructure : Google traite des milliards de recherches chaque jour et doit disposer des ressources nécessaires pour y répondre. Mais une partie de ces recherches provient en réalité des robots qui viennent surcharger ses infrastructures en interrogeant des pages jamais consultées par des utilisateurs réels. « Imaginez un restaurant où 90 % des commandes proviennent de clients qui ne mangent jamais. Un jour, vous cesserez de servir des fantômes », donne l’exemple Ernesto Lee sur son site.
  • Corriger “l’inflation d’impressions” : en coupant l’herbe sous le pied aux outils SEO et de scraping d’IA, Google cherche à refléter le trafic réel des utilisateurs humains.

Ainsi, au-delà de l’exploitation à proprement parler des résultats de recherche de Google, la suppression du raccourci caché a fait chuter le trafic de certains sites. « Une correction de la réalité », plutôt qu’une pénalité de la part de la firme américaine, puisque le trafic était en réalité alimenté par des outils d’IA et non par des humains.

« Le trafic qui a “disparu” n’était pas du trafic humain. C’est la visibilité générée par les robots que Google a cessé de comptabiliser », énonce ainsi Ernesto Lee.

Le cas de Reddit

Et pourtant, ce trafic artificiel – c’est le cas de le dire – jouait un rôle crucial dans certains cas, notamment celui de Reddit. Avec la disparition du « num=100 » les scrapers d’IA n’ont plus accès aux pages du forum qui se positionnent entre la 11ᵉ et la 100ᵉ place.

De ce fait, le trafic artificiel fait chuter les threads du site des résultats de recherche, faisant chuter les impressions, renforçant la baisse du trafic, ce qui aurait fait plonger la valorisation de Reddit, selon Thibault Renouf, CEO de Partoo, une société de développement de logiciels axée sur la communication des entreprises avec leurs clients.

Il assure sur LinkedIn que la chute de 15 % la valorisation – soit 5 milliards de dollars – du site Internet est due à ce changement de stratégie de la part de Google.

Des conséquences pour l’IA… mais pas que

Maintenant qu’elles n’ont plus aussi facilement accès aux résultats entre la 11ᵉ et la 100ᵉ position, les modèles d’IA entraînés sur les données web vont perdre en qualité, met en garde le docteur en data analytics.

Leurs données de formation seront davantage biaisées, puisqu’elles seront basées sur du contenu populaire et de premier plan. « Les connaissances spécialisées et les diverses perspectives seront sous-représentées », souligne Lee, puisque « l’obscur article de forum en page six, le blog spécialisé enfoui en page huit » seront moins accessibles.

Par ailleurs, la baisse de diversité dans les réponses des IA, de même que le renforcement des sites dominants (Wikipédia, médias ou encore forums officiels), risque de provoquer une centralisation toujours plus profonde d’Internet, ainsi qu’une homogénéisation. Autrement dit, le petit changement apporté par Google, qui ne semblait impacter que les entreprises de SEO et d’IA, aura un impact plus global et insoupçonné.

« Le “Web Googleable” pour l’IA est désormais beaucoup plus petit qu’il y a six mois », continue-t-il. C’est en cela que la taille du web semble avoir rétréci, mais, dans les faits, pour les utilisateurs réels, rien n’a changé.

Même si la décision de Google remet certaines choses en perspective concernant Internet : un site classé à la 73ᵉ page des résultats de recherche a-t-il une réelle valeur ? Fait-il vraiment partie du web si personne – pas même un outil d’IA – ne le consulte ?

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Expertise Partenaire