Quatre transactions avec votre carte de crédit peuvent révéler votre identité
C’est ce qu’a découvert un chercheur Belge du MIT. Selon Yves-Alexandre de Montjoye, il serait judicieux de repenser la façon dont les bases de données transactionnelles sont utilisées.
L’étude menée par le Massachussetts Institute of Technology (MIT) et publiée dans la prestigieuse revue Science révèle des résultats plutôt inquiétants. Sur base de quatre transactions réalisées par carte de crédit, il est possible d’identifier n’importe qui dans une base de données apparemment anonyme. Par anonyme, on entend une base de données ” brutes “, de laquelle on a retiré toutes les informations privées concernant les titulaires de cartes de crédit (nom, prénom, adresse, numéro de compte, etc.) permettant de les identifier.
Comment est-ce possible ? ” C’est assez simple en fait, explique Yves-Alexandre de Montjoye, le chercheur à la base de l’étude. Un schéma de quatre transactions différentes est 90% du temps unique. Ce qui fait qu’on parvient presque à chaque fois à retrouver la personne. Le fait de retirer les noms et prénoms des gens, leur adresse ou encore leur numéro de compte des bases de données n’est donc pas suffisant pour leur garantir leur anonymat. ”
Métadonnées
Un fait d’autant plus inquiétant que le nombre de bases de données ne cesse d’augmenter (carte bancaire, de fidélité, téléphone..). L’ensemble de la population se retrouve en fait consignée dans un nombre assez restreint de bases de données. ” Par exemple, un pays va rassembler tous ses utilisateurs de téléphones portables dans seulement trois ou quatre bases de données (qui correspondent au nombre d’opérateurs) “, pointe le chercheur d’origine liégeoise.
Une fois le profil repéré parmi toutes les métadonnées, il est possible de mettre un nom sur la personne, en croisant les données anonymes récoltées avec d’autres bases de données, publiques cette fois, où les noms et prénoms sont indiqués. ” On peut par exemple utiliser une plateforme comme Foursquare, où les gens laissent des commentaires sur des restaurants et des bars, ou même Facebook”, explique Yves Alexandre de Montjoye.
Pour effectuer ses recherches, l’équipe de chercheurs a mené son étude sur une base de données de 1.1 millions de personnes, récoltées sur trois mois. ” Elle nous a été fournie grâce à un partenariat avec une banque pour cette étude “, précise le chercheur belge.
Identifiable même avec des données peu précises
Retrouver quelqu’un est encore plus facile si le montant approximatif de la transaction est connu. Le taux de réidentification atteint alors les 94% et seules trois transactions sont nécessaires.
L’étude va encore plus loin. Selon les chercheurs, l’identification reste encore largement possible même si les informations sont moins précises. ” Avec cinq ou six transactions, on parvient à obtenir des résultats équivalents avec des données moins précises, comme simplement une zone d’achat ou un délai de quelques jours plutôt qu’une date précise “, assure Yves-Alexandre de Montjoye.
Les résultats ont également pu permettre d’observer que les femmes sont environ 20% plus facilement identifiables que les hommes. Les hauts revenus sont, eux, 75% plus souvent retrouvés. “On ne l’explique pas. Il faudrait d’autres études pour comprendre pourquoi ces différences existent “, précise le chercheur.
L’anonymat parfait ? Impossible
Pour le scientifique, l’étude montre qu’il est probablement nécessaire de repenser la législation qui entoure la collecte et l’usage des données. Yves-Alexandre de Montjoye estime aussi qu’il est nécessaire de clairement expliquer non seulement les risques mais aussi le potentiel que représentent les bases de données. ” D’un côté, on prouve qu’un anonymat parfait est quasiment impossible à obtenir dans les bases de données transactionnelles. D’un autre côté, ces bases de données peuvent s’avérer très utiles : elles sont par exemple utilisées pour combler les lacunes de certains pays d’Afrique en matière de recensement de la population, ou encore pour améliorer la lutte contre le virus Ebola”.
Pour le chercheur, il existe toutefois des solutions pour utiliser ces bases de données tout en respectant la vie privée des gens. L’idée est de ne jamais travailler avec les données ” brutes ” (comme c’est souvent le cas aujourd’hui) mais plutôt de permettre à des entreprises d’utiliser des données ” filtrées ” par une interface de questions-réponses appelée SafeAnswers. Les entreprises qui voudraient l’utiliser auraient alors à leur disposition uniquement les ” réponses ” utiles à leurs demandes.
” Ce schéma de questions-réponses permet de transformer un problème de protection de la vie privée en un problème de sécurité de base de données, en limitant, par exemple, le nombre de questions que peut poser une entreprise “, conclut le chercheur.
Retrouvez notre dossier complet sur La fin de la vie privée dans le magazine Trends-Tendances de cette semaine.
Arnaud Martin
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici