L'anonymat en ligne est une illusion

Caroline Lallemand

14-01-2025, 10:10 Mise à jour le: 14-01-2025, 10:51 Source: Trends-Tendances 4 min. de lecture

L’essor de l’intelligence artificielle (IA) redéfinit notre rapport à la vie privée. Il rend l’anonymat en ligne de plus en plus difficile à préserver. Pour répondre à ce défi, des chercheurs belges ont conçu un modèle mathématique novateur. Il permet d’analyser les risques liés à l’IA et vise à aider les entreprises et les régulateurs à protéger la vie privée des citoyens.

L’émergence de l’intelligence artificielle a pour conséquence la quasi-impossibilité de garantir l’anonymat des personnes naviguant sur le web. Un concept basé sur l’absence d’identification, de surveillance ou de traçabilité. Face à ce constat, la question n’est plus seulement « comment anonymiser les données », mais « l’anonymat est-il encore possible ? ». Julien Hendrickx, professeur à l’Université catholique de Louvain spécialisé en mathématiques appliquées et en sciences des données, Yves-Alexandre de Montjoye, professeur associé en mathématiques appliquées et informatique à l’Imperial College London, en collaboration avec leur collègue Luc Rocher (Oxford University) ont conçu un modèle innovant pour redéfinir l’anonymat à l’ère du big data et des méthodes avancées de réidentification. Les résultats de leur étude sont publiés dans la prestigieuse revue scientifique Nature Communications.

L’anonymat de plus en plus menacé

Leur recherche révèle que, malgré les efforts pour anonymiser les données, les risques de réidentification ne cessent d’augmenter. À mesure que les données gagnent en volume et en complexité, les méthodes traditionnelles d’anonymisation montrent leurs limites. « Ce qui fonctionne à petite échelle ne marche pas toujours à grande échelle », explique Julien Hendrickx à Trends Tendances. « Si l’étude du style d’écriture, la stylométrie, peut identifier un journaliste dans une rédaction, elle s’avère inefficace dans une population nationale. En revanche, certaines techniques de suivi en ligne, comme le fingerprinting, restent malheureusement performantes même à très grande échelle. Ce modèle développé permet donc de déterminer, sur base d’échantillons de laboratoire, si une méthode d’anonymisation tiendra le coup une fois déployée », développe son collègue Yves-Alexandre de Montjoye.

Une étape en plus vers la perte d’anonymat

Données médicales et pubs en ligne

Les applications de leur outil dans la vie quotidienne sont nombreuses. L’anonymat des données personnelles dépasse en effet largement la navigation sur Internet. Par exemple, les hôpitaux peuvent, sous conditions, anonymiser les données personnelles des patients à des fins de recherche. « Or, avec suffisamment de données médicales, la réidentification des personnes reste souvent possible », souligne Julien Hendrickx. L’enjeu est donc de pouvoir exploiter l’ensemble de ces données sur les différentes personnes dans les hôpitaux, mais sans possibilité de les réidentifier en tant qu’individu. » Un usage particulièrement pertinent pour éviter les fuites de données sensibles.

**Des trackers invisibles**

De même, dans la publicité en ligne, le modèle mathématique surveille l’efficacité des trackers invisibles et des codes publicitaires qui récoltent des informations subtiles comme le fuseau horaire ou les paramètres de navigateur des internautes, qui permettent de cibler des utilisateurs en ligne avec une grande précision. « La personnalisation des pubs peut offrir des avantages, mais à quel point ? Il faut trouver un juste milieu », est d’avis Yves-Alexandre de Montjoye.

La faille du fingerprinting

L’équipe de chercheurs met en évidence une faille majeure dans la protection de la vie privée en ligne. Les données envoyées par nos navigateurs web aux sites que nous consultons permettent de nous identifier de manière unique au sein d’un échantillon gigantesque de données, même si elles ne sont pas directement identifiantes. Cette stratégie, connue sous le nom de fingerprinting (empreinte numérique), repose sur les données techniques transmises par nos navigateurs (comme la version, le système d’exploitation, la langue, etc. ), qui, prises individuellement, semblent inoffensives. Cependant, lorsqu’elles sont croisées, elles créent une sorte d’empreinte digitale numérique unique pour chaque utilisateur, sans devoir recourir aux cookies traditionnels. Contrairement à ces derniers, qui peuvent être supprimés ou désactivés, le fingerprinting repose sur des informations qui ne peuvent pas être facilement masquées. « Cette identification devient encore plus facile lorsqu’on utilise des technologies comme l’intelligence artificielle pour analyser ces données massives », alerte Yves-Alexandre de Montjoye.

Le cas Google

Actuellement, ces techniques comme le fingerprinting ne sont pas toujours reconnues comme une collecte de données personnelles, ce qui leur permet de contourner certaines lois comme le RGPD (Règlement Général sur la Protection des Données). « L’un des aspects les plus préoccupants de cette évolution est que les données anonymisées échappent souvent à ces restrictions, rendant leur réidentification toujours possible. Nous apportons un outil qui permet de savoir si ces données sont vraiment anonymes ou si elles comportent encore des risques”, résume Julien Hendrickx. « C’est d’autant plus important que Google vient d’autoriser les clients qui utilisent ses services publicitaires à collecter ces fingerprints à partir de février», renchérit Yves-Alexandre de Montjoye.

“Avec le RGPD, les entreprises ont pris conscience qu’on ne peut pas faire n’importe quoi avec les données personnelles”

Un atout pour les régulateurs et les entreprises

Dans ce contexte, l’outil mis en place par les chercheurs constitue une ressource précieuse pour les entreprises et les autorités en charge de la protection des données. En détectant les configurations qui rendent les individus reconnaissables, le modèle peut aider les régulateurs à poser des limites à l’utilisation de ces technologies. « Cette démarche est essentielle, car le RGPD définit l’anonymisation comme via un résultat à atteindre. Nos outils aident à interpréter ce standard en pratique», vante Julien Hendrickx.

L’algorithme issu de cette recherche est accessible au public. Il offre aux chercheurs, entreprises et régulateurs la possibilité d’analyser leurs propres données. Une version démonstrative d’une étude précédente est également accessible en ligne. Elle illustre, elle aussi, les risques de réidentification sur base d’autres données apparemment anodines.

Comment se protéger du fingerprinting ?

Utiliser des navigateurs axés sur la vie privée comme Tor ou Brave.
Activer des extensions anti-fingerprinting comme celles proposées par Firefox ou DuckDuckGo.
Limiter les plug-ins et extensions installés, qui augmentent votre empreinte digitale.
Naviguer en mode privé, bien que cela ne protège pas totalement du fingerprinting.