Utilisateurs Twitter : savez vous qui récupère vos données de navigation ?
Les réseaux publicitaires en ligne suivent votre historique de navigation au niveau de plusieurs sites, afin qu’ils puissent vous offrir des publicités plus ciblées. Visitez un site d’e-commerce qui participe à l’un de ces réseaux, et vous verrez apparaitre des annonces en relation avec ce dernier, sur un autre site qui participe également au même réseau.
Cette pratique effraie souvent les internautes, mais le contre-argument a toujours été que les données de navigation restaient anonymes. Au lieu de relier votre vrai nom à vos données de navigation sur le web, ces trackers utilisent à la place une ID client unique.
De cette façon, ils peuvent savoir que la même personne, qui a effectué une recherche au sujet des escapades de Noël sur un site web, est maintenant en train de lire un article sur les marmousets sur un autre site. Cependant, comme ils ne savent pas qui vous êtes, ils peuvent de manière raisonnable connecter l’article sur les marmousets avec les vacances de Noël, sans que personne sur internet ne puisse faire le lien et savoir que vous ne serez pas à votre domicile, laissé donc sans surveillance, le 25 Décembre !
C’est très bien, mais que faire si vous pouviez déduire l’identité d’une personne en faisant correspondre les données de navigation anonymes avec leurs Timelines sur les réseaux sociaux ? Que faire si, au lieu d’une ID client, vous pourriez le remplacer par leur handle Twitter ?
Des universitaires de Stanford et Princeton ont fait exactement cela. Leurs recherches s’appuient sur l’idée que les gens sont plus susceptibles de suivre les liens apparaissant dans leur flux sur les réseaux sociaux, et en particulier les liens de personnes qu’ils suivent sur Twitter, et qui apparaissent dans ces flux. Ils ont fait cette déduction car l’ensemble des liens dans un flux Twitter est souvent unique, et vous pouvez le comparer avec des liens provenant d’un historique de navigation anonyme.
Le groupe a recueilli les historiques de navigation anonymes de près de 400 volontaires, et les ont examinés à la recherche de liens en provenance de Twitter (marqué avec le nom de domaine t.co, que Twitter utilise pour raccourcir les URLs) et visités au cours des 30 derniers jours. Ce groupe a tenté de désanonymiser ces données de navigation avec au moins cinq de ces liens, en les comparant à 300 000 flux sur Twitter.
Les chercheurs ont découvert qu’ils pouvaient identifier plus de 70% des volontaires en moyenne. Plus l’historique d’un utilisateur comportait des liens en provenance de Twitter, plus l’identification était précise. L’équipe a correctement identifié 86% des participants à l’expérience en s’appuyant sur 50 à 75 URLs. Donc, si vous suivez beaucoup de liens sur Twitter, vous êtes susceptibles d’être identifiés plus facilement.
Il ne s’agit pas seulement d’un exercice théorique. L’équipe a construit un système pour désanonymiser les historiques de navigation en moins d’une minute, en utilisant ce concept, prouvant ainsi qu’il fonctionnait bien en pratique.
L’équipe de Princeton détient des archives concernant des failles révélées dans des ensembles de données anonymes. Arvind Narayanan, l’un des chercheurs, gère un blog intitulé 33 Bits of Entropy, nommé ainsi du fait qu’il existe environ 6,6 milliards de personnes sur terre, ce qui signifie que vous avez seulement besoin de 33 bits de données pour déterminer leur identité. Il s’est un peu écarté de ses recherches sur la déanonymisation, mais par le passé, il avait embarrassé Netflix en utilisant ses données de recherche pour déterminer qui regardait quel film.
Voici un autre élément provenant de cette recherche : elle souligne que les mêmes principes s’appliquent à un ensemble d’éléments sélectionnés anonymement par un individu, avec un historique de sélections identifiable. Par exemple, des articles anonymes peuvent citer d’autres travaux et peuvent être comparés avec un éventail plus large de documents universitaires, pour voir si des similitudes apparaissent.
Nous nous demandons s’il est possible de faire ce test avec les huit références citées dans l’article original sur le bitcoin, créé par le mystérieux Satoshi Nakamoto, pour aider à le retrouver, et en supposant bien sûr qu’il ait déjà publié des travaux académiques auparavant ? Pas nécessairement, dit Jessica Su, l’une des chercheuses :
Je ne serai pas en mesure de vous le dire sans avoir eu accès à l’ensemble des données qui inclus le document en question. Cependant, je suis en train en ce moment d’essayer de désanonymiser des articles papier, et une modification de notre méthode nous donne 28% de précision. Si nous nous limitons aux documents papier avec exactement huit citations présentes dans notre base de données, nous obtenons une précision de 36%. Ce sont là uniquement les tout premiers résultats.
Une chance sur trois de trouver Satoshi, peut-être ? C’est bien mieux que la plupart des autres options que nous avons eu jusqu’à présent. Qui est susceptible d’utiliser l’historique des réseaux sociaux en combinaison avec le pistage réalisé par les annonces ? Les trackers eux-mêmes pourraient. L’équipe a examiné quatre de ces trackers : Google, Facebook, ComScore et AppNexus, et elle a constaté qu’ils avaient tous suffisamment de données de navigation pour désanonymiser leurs utilisateurs.
Certains de ces trackers désanonymisent déjà leurs utilisateurs par défaut. Google, qui piste déjà ses utilisateurs sur près de 80% des sites web visités, a modifié sa politique de confidentialité autour de l’anonymisation à la fin de l’année dernière, pour faire correspondre les liens avec les comptes Google. Facebook, quant à lui, possède le réseau social à partir duquel ses utilisateurs suivent ces liens.
Qui d’autre pourrait utiliser ces information ? La NSA, surement. Elle piste déjà les annonces Google pour trouver des utilisateurs de Tor. La recherche souligne que des adversaires bien informés pourraient scruter le trafic sur le réseau pour déterminer quels domaines un équipement particulier est en train de visiter (bien que le protocole HTTPS rend cela plus difficile).
D’autres utilisateurs potentiels pourraient être tout simplement des employeurs potentiels, quiconque accordant des crédits, des compagnies d’assurance qui pourraient adorer connaitre votre recherche récente au sujet des symptômes du cancer ou des activités à risques. Toute personne qui pourrait avoir un intérêt à savoir ce que vous recherchez, pourra trouver ce type d’attaque utile.
La bonne nouvelle est que ces acteurs commerciaux, pourront uniquement faire correspondre votre historique de navigation anonyme avec votre profil public sur les réseaux sociaux, s’ils possèdent ces données de navigation. La mauvaise nouvelle est qu’elles sont à vendre depuis bien longtemps déjà !
Ce constat est particulièrement irritant pour les défenseurs de la vie privée, car la vente des données de clients était sur le point de devenir beaucoup plus difficile. La FCC aux Etats-Unis, avait émis une ordonnance, limitant la collecte des données sensibles des clients par les FAI, à moins que ces derniers ne l’aient autorisée. En vertu de cette ordonnance, les fournisseurs de services doivent obtenir la permission du client lui-même pour vendre ses données personnelles sensibles, définies comme étant “raisonnablement reliables” à une personne.
Les données anonymisées peuvent être considérées comme non raisonnablement reliables, dans la mesure où elles peuvent être collectées et utilisées. Mais clairement, avec un peu de recherche automatisée, il est assez facile de faire ce lien.
Comment pouvez-vous empêcher cela d’arriver ? Les bloqueurs de trackers, tels que Ghostery, uBlock Origin ou Privacy Badger peuvent aider. Les chercheurs ont déclaré que le fait de ne pas révéler votre réelle identité sur les profils des réseaux sociaux était une protection utile, bien que lourde à mettre en place. Étant donné les récentes actions des gardes-frontières américains, cette dernière pourrait être une bonne idée de toute façon !
Follow @ SophosFrance //platform.twitter.com/widgets.js
Billet inspiré de Twitter users, do you know who’s spying on your web-surfing habits?, par Danny Bradbury, Sophos NakedSecurity.