Digital decay: en 10 ans, plus d’un tiers du contenu internet a disparu

© getty

Ce qui est sur le NET y reste pour toujours. Croit-on. En réalité près de 40% des pages Internet vieilles de 10 ans ne sont plus accessibles en ligne, selon une étude. Un phénomène baptisé «digital decay», ou «dégradation numérique».

Selon une étude réalisée par le Pew Research Center, 38 % des pages internet qui existaient en 2013 sont désormais inaccessibles. En chiffre cela représente plus de 250 millions de sites. L’enquête révèle également qu’un quart de toutes les pages web qui ont été créées de 2013 à 2023 ne sont plus disponibles. Et que 8% des pages publiées en 2023 ne sont déjà plus accessibles. Tous les types de sites et réseaux sociaux sont concernés par ce qu’on appelle le «digital decay», qu’on peut traduire par « dégradation numérique ».

Un constat facilement vérifiable

Quand on surfe sur des pages web et qu’on clique sur des liens, il n’est pas rare de voir apparaître le fameux message 404. Il indique que le serveur HTTP n’a pas réussi à localiser la ressource demandée. En d’autres termes, la page où le contenu web que vous cherchez n’est pas ou plus disponible sur le serveur.

Cela peut se produire suite à la suppression d’une page, la refonte ou la migration de site web, un changement de nom de domaine ou de la structure ou de la syntaxe des URL sans redirection adéquate. Les raisons de la disparition du contenu mis en ligne peuvent donc être multiples. Ainsi les sites gouvernementaux et d’autres ont pour la plupart migré vers des adresses sécurisées de type “https”. Des liens ont pu aussi être transformés en documents « statiques » comme un PDF.  Enfin pour les sites de particuliers ou commerciaux, maintenir le site est parfois chronophage et donc une activité coûteuse. Cela n’a d’intérêt que s’il y a du trafic. Une page qui n’attire plus personne n’a plus de raison d’être. Elle est donc le plus souvent délaissée ou même supprimée.

Du contenu plus éphémère qu’on ne le pense

L’internet qu’on pensait être un puits sans fin contenant des centaines de milliards de pages web indexées peut vite devenir un cul-de-sac ou une oubliette. Car du contenu qui y était pourtant encore récemment peut rapidement disparaître de la vue.

Ainsi 23% des pages d’actualités analysées par l’étude (aux USA donc) contiennent au moins un lien brisé. Et un cinquième de tous les tweets ne sont plus visible quelques mois après leur publication. Pour 60% des tweets, la cause était un compte qui est passé en mode privé ou qui a été supprimé. Plus surprenant, l’étude révèle que ce sont les tweets écrits en turc ou en arabe qui risquent plus que les autres d’avoir disparu. Plus perturbant encore, 54% des pages Wikipedia contiennent au moins un lien dans leur section “Références” qui pointe vers une page qui n’existe plus.

Une partie de l’Internet inutilisable

Ces liens «brisés » ne sont pas uniquement une source de frustration. Ils montrent la fragilité du web. Ils sont aussi une perte réelle pour ceux qui effectuent des recherches dans un domaine bien précis et qui ne peuvent plus accéder à ce qui est parfois du matériel de référence. Par exemple, une autre étude a révélé que près de la moitié de tous les hyperliens dans les opinions de la Cour suprême des États-Unis menaient à du contenu qui avait soit changé depuis sa publication originale, soit qui avait disparu.

Plus grave, l’obsolescence de ces liens peut rendre toute une partie de l’internet virtuellement inutilisable ou tout du moins incompréhensible, car privé de tout contexte.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Partner Content