donnees de localisation
Produits et Services PRODUITS & SERVICES

Anciens tweets et données de localisation intégrées peuvent en dire long sur vos activités !

Selon une étude publiée ce mois-ci, vos anciens tweets peuvent dévoiler, via vos données de localisation, les endroits que vous avez visités et certaines choses que vous avez faites, et ce même si vous ne les avez pas explicitement mentionnés.

Selon une étude publiée ce mois-ci, vos anciens tweets pourraient révéler sur vous beaucoup d’informations que vous ne le pensez. En effet, les tweets peuvent dévoiler les endroits que vous avez visités et certaines choses que vous avez faites, et ce même si vous ne les avez pas explicitement mentionnés.

Des chercheurs de la Foundation for Research and Technology en Grèce et de l’Université de l’Illinois ont fait cette découverte après avoir développé un outil appelé LPAuditor. Le logiciel exploite des données de Twitter accessibles au public, et que tout le monde peut télécharger depuis le réseau social via son API (Application Programming Interface).

À l’aide de cet outil, ils ont analysé les métadonnées, à savoir des informations cachées concernant un tweet et intégrées dans ce dernier, afin d’identifier les domiciles des utilisateurs, leurs lieux de travail et les endroits sensibles qu’ils ont visités. Dans des dizaines de cas, ils ont également pu identifier les utilisateurs cachés derrière des comptes Twitter anonymes.

Dans le document intitulé “Please Forget Where I Was Last Summer: The Privacy Risks of Public Location (Meta)Data”, les chercheurs ont déclaré :

même si les utilisateurs sont prudents et que rien n’est véritablement sensible dans leurs tweets, les données de localisation pouvant être obtenues, avec notre approche basée sur la durée, peuvent entraîner une violation importante de la vie privée. 

Cette potentielle violation provient des historiques de données Twitter publiées avant avril 2015. Avant cette date, si un utilisateur se géolocalisait lui-même dans une vaste zone, telle qu’une ville par exemple, le réseau social intégrait ses coordonnées GPS exactes dans les métadonnées du tweet. Les utilisateurs qui se sont contentés de consulter l’application Twitter ou le site web ne sont pas concernés car ce type d’informations n’apparaît que dans les données brutes obtenues via l’API. Bien que Twitter ait cessé d’intégrer ces données de localisation en 2015, les historiques de données sont toujours accessibles au public via l’API.

Les chercheurs ont pris les coordonnées GPS dans les historiques de données et ont utilisé des services de géolocalisation accessibles au public pour les associer à une adresse. Ils ont ensuite regroupé les tweets cartographiés au niveau de la même adresse, en produisant des groupes de tweets, puis les ont horodatés pour indiquer la fréquence et le timing des tweets de l’utilisateur à partir d’emplacements spécifiques.

L’équipe a utilisé certaines hypothèses de base sur la vie d’une famille aux États-Unis pour identifier les adresses personnelles, telles que la tendance à partir le matin et à revenir le soir et à y rester souvent le week-end. Elle a utilisé des hypothèses similaires sur les heures de travail pour identifier où les utilisateurs de Twitter travaillaient, et a même pris en compte des variations possibles telles que le fait de travailler en équipe de nuit.

Les chercheurs ont également cartographié les coordonnées GPS des autres tweets des utilisateurs par rapport aux autres adresses et lieux répertoriés dans Foursquare. Ces informations leur ont indiqué depuis quels autres endroits les utilisateurs avaient été susceptibles d’avoir tweeté. À partir de là, ils ont créé des Potentially Sensitive Clusters (PSC) indiquant les emplacements sensibles que les utilisateurs ont probablement visités.

Ils ont fait tout cela sans même regarder le contenu réel des tweets, mais en corrélant ces métadonnées avec le contenu, ils auraient pu obtenir un aperçu encore plus précis des activités de l’utilisateur. En recherchant des expressions telles que “à la maison” ou “au travail”, ils auraient pu confirmer qu’un lieu était une adresse personnelle ou professionnelle.

De même, en cherchant des listes de mots-clés liés à des activités médicales, religieuses, sexuelles ou nocturnes, ils auraient pu confirmer qu’un utilisateur se trouvait dans un lieu sensible exerçant une activité particulière même si le tweet ne le mentionnait pas explicitement. Ils ont expliqué dans l’étude que :

Dans un cas, l’utilisateur a exprimé des sentiments négatifs à l’égard de son médecin, tandis que les données de localisation placent l’utilisateur dans le bureau d’un professionnel de santé mentale. Dans un autre exemple, l’utilisateur s’est plaint de certains tests sanguins, alors qu’il était géolocalisé dans un centre de désintoxication. 

Les chercheurs ont non seulement pu récupérer davantage d’informations sur les utilisateurs à partir de leurs tweets, mais ils ont également pu identifier avec précision de nombreux comptes Twitter anonymes, a indiqué l’étude. Ils ont ajouté que des tiers pouvaient utiliser ces données pour identifier les utilisateurs et potentiellement récupérer des informations sur leur comportement. Il pouvait s’agir :

… d’un régime répressif qui a dé-anonymisé le compte d’un activiste ou d’une compagnie d’assurance invoquant les problèmes de santé d’un client ou encore d’un employeur potentiel effectuant une vérification de ses antécédents.

Twitter permet aux utilisateurs de supprimer des tweets ou de supprimer leurs données de localisation de manière rétroactive. Le problème est que, du fait que les données sont accessibles au public, les data-brokers et d’autres tiers sont susceptibles d’en avoir déjà des copies.

Si vous supprimez vos données de localisation au niveau de Twitter, les tiers ne vous suivront plus :

La politique de confidentialité invasive de Twitter ne peut être considérée comme une vulnérabilité qui a été corrigée. Tant que ces historiques de données resteront en ligne, les utilisateurs continueront à courir des risques importants vis-à-vis de la protection de leur vie privée, lesquels qui ont été soulignés dans le présent document.  

En bref, ce qui se passe à Vegas peut ne pas rester toujours à Vegas. Si vous l’aviez tweeté, ce qui s’y est passé a très bien pu aller partout !

Les chercheurs présenteront leur étude au Network and Distributed System Security Symposium (NDSS) le mois prochain.


Billet inspiré de Old tweets reveal hidden secrets, sur Sophos nakedsecurity.

Qu’en pensez-vous ? Laissez un commentaire.

Your email address will not be published. Required fields are marked *