L’algorithme Twitter en libre accès: transparence ou coup de com ?

Elon Musk a rendu public fin mars une partie du code de Twitter, comme il l’avait promis en rachetant le réseau social. Les observateurs s’interrogent depuis sur la portée de cet évènement.

Le 31 mars, Twitter a publié sur la plateforme Github, très utilisée par les développeurs, plusieurs parties de son code source, c’est-à-dire les instructions en langage informatique qui régissent le fonctionnement de son réseau social. Il a en particulier dévoilé son algorithme de recommandation, qui sélectionne et organise les tweets dans l’onglet “Pour vous”. Certaines parties du code avaient déjà fuité quelques jours auparavant sur Github mais Twitter avait demandé leur suppression.

Peu d’entreprises lèvent le secret sur leur code informatique, qui représente un avantage concurrentiel. Certaines organisations choisissent toutefois de développer en “open-source” (libre accès) pour permettre à des développeurs tiers d’améliorer leur programme. Twitter l’avait fait en 2021 avec son algorithme de recadrage des photos, accusé de biais racistes. Elon Musk dit notamment s’être inspiré du Bitcoin, une cryptomonnaie dont le code est en libre accès afin que chacun puisse vérifier l’absence de failles.

Inspiré du flux continu de vidéos qui défilent sur Tiktok, l’onglet “Pour vous” présente une liste de tweets pour moitié issus des comptes auxquels l’utilisateur est abonné, pour moitié de l’ensemble du réseau. Pour cela, Twitter analyse finement le comportement des utilisateurs, estime leur “réputation” et regroupe ceux ayant des intérêts similaires. Chaque utilisateur est placé au sein de 145.000 “communautés”, des cercles sociaux mis à jour toutes les trois semaines qui peuvent regrouper de quelques milliers à des centaines de millions de comptes, explique Twitter dans un post de blog.La communauté “Pop” compte 332 millions d’utilisateurs, dont Katy Perry, Rihanna ou Justin Timberlake. La communauté “Bollywood” regroupe, elle, 80 millions de personnes.

“Prétendre à une transparence”

“Plus les utilisateurs d’une communauté aiment un Tweet, plus ce tweet sera associé à cette communauté” et promu par l’algorithme, explique Twitter. A l’inverse, publier sur des sujets très différents sera dévalorisé. Ce fonctionnement, qui rappelle les “bulles de filtres” dénoncées de longue date par des experts des réseaux sociaux, permet de maximiser l’engagement des utilisateurs mais a tendance à réduire la diversité des contenus et des opinions partagées au sein d’une communauté.

Le code révèle aussi que les “likes” influent bien plus fortement sur la popularité d’un tweet que les “retweets” ou même les réponses. Enfin, les abonnés à la nouvelle offre payante Twitter Blue sont privilégiés par l’algorithme, comme l’avait indiqué Elon Musk. Twitter a choisi de ne pas divulguer à ce stade les données d’entraînement de son algorithme, ni les paramètres des modèles d’intelligence artificielle qui y sont associés.Sa justification: ne pas “compromettre la sécurité et la vie privée des utilisateurs” ou “saper (ses) efforts de lutte contre l’exploitation et la manipulation sexuelles des enfants.”

Mais, pour le journaliste Nicolas Kayser-Bril, spécialiste de l’étude des algorithmes, “il n’est pas possible de comprendre un programme en lisant seulement le code. Il faut pouvoir le lancer sur un ordinateur”. “Publier de grandes quantités de code sans mode d’emploi peut être pire qu’inutile. Cela permet de prétendre à une transparence tout en rendant impossible un réel audit”, écrit-il dans une newsletter.

Le rôle de certains morceaux de code publiés posent d’ailleurs question, notamment ceux faisant référence aux périodes électorales ou permettant de savoir si l’auteur d’un tweet est un élu démocrate, républicain ou Elon Musk lui-même. Selon le Règlement sur les services numériques qui entre en vigueur cette année dans l’Union européenne, les “très grandes plateformes” de plus de 45 millions d’utilisateurs actifs, telles que Facebook, Instagram ou Tiktok, vont devoir permettre aux autorités d’étudier leurs algorithmes.

Interrogé récemment par une commission d’enquête du Sénat, le directeur des technologies de la Cnil, Bertrand Pailhès, a dit ne pas avoir encore arrêté de “position” sur cette obligation, qui s’applique pour le moment en France aux seuls algorithmes publics. “Il faut avoir en tête que la publication peut aussi révéler des problèmes de sécurité. C’est quelque chose qu’il faut faire avec des précautions“, a-t-il déclaré.

Partner Content