Site icon Sophos News

Facebook : retrouver vos données personnelles dans notre énorme entrepôt est trop compliqué !

donnees personnelles

Le 25 mai, le Règlement Général sur la Protection des Données (RGPD) de l’UE est entré en vigueur.

Cela dit, la loi elle-même était en vigueur depuis plus de deux ans. Quel est donc le réel changement : à partir du mois de mai, les utilisateurs pouvaient désormais demander aux entreprises de leur transférer gratuitement les données personnelles qu’elles détenaient sur eux, via des Demandes d’Accès au Sujet (SAR : Subject Access Request).

… et c’est ainsi que l’expert en pratiques technologiques Michael Veale, de l’University College London, a fini par frapper à la porte de l’entrepôt des données de Facebook.

Comme le rapporte The Register, Veale a soumis une SAR à la plateforme le 25 mai, demandant toutes les données personnelles collectées sur son comportement de navigation et ses activités en dehors de Facebook.

La réponse de Facebook a été de lui claquer la porte au nez. Désolé, a-t-on répondu à Veale : il est trop difficile de retrouver vos informations dans notre gigantesque entrepôt de données.

Veale a fait savoir que cette réponse ne lui convenait pas, étant donné que les informations recueillies par Facebook pouvaient être utilisées pour diffuser des données personnelles sensibles sur un internaute, y compris sa religion, ses antécédents médicaux ou sa sexualité …  et cela concerne aussi bien pour les utilisateurs de Facebook que pour les non-utilisateurs !

En particulier, nous parlons des données récupérées par Facebook Pixel : un petit bout de code minuscule mais très puissant intégré dans de nombreux sites tiers que Facebook considère comme un moyen plutôt intelligent de diffuser des annonces ciblées à des internautes, y compris des non-membres.

Veale a fait remonter cette affaire jusqu’au commissaire irlandais à la protection des données (DPC), étant donné que le siège européen de Facebook se trouve en Irlande.

Le DPC irlandais a ouvert une enquête à ce sujet, déclarant à Veale que l’affaire serait probablement renvoyée devant le comité européen de la protection des données, étant donné qu’il s’agissait d’un traitement transfrontalier.

Veale a fait part de sa plainte à The Register. Dans celle-ci, Veale cherche à savoir si Facebook est en possession d’un historique web, le concernant, et ciblant les domaines médicaux et la sexualité : les domaines pour lesquels Facebook est connu pour faire du marketing très ciblé, comme il l’a dit à The Register :

Les préoccupations concernant ces deux domaines particuliers ont vu le jour et ont été exacerbées par la manière dont la plateforme Facebook cible les annonces de manière très détaillée, et je souhaite comprendre le traitement qui leur est réservé.  

Veale dit qu’il a utilisé les outils que Facebook offre au public pour savoir ce que le réseau social sait de nous. Ces outils incluent, par exemple, “Consultation et téléchargement de vos informations” et “Préférences publicitaires”. Mais quel que soit l’outil spécifique dont Veale s’est servi, il s’est avéré “insuffisant”, a-t-il déclaré.

Comme l’a répété Mark Zuckerberg au cours des deux jours d’audition devant le Congrès américain en avril dernier, et comme Facebook l’a répété encore une fois dans un article relatif à des “questions difficiles“, suite à ce déluge d’interrogations diverses, Facebook utilise les données personnelles collectées, même lorsque les utilisateurs ne sont pas sur Facebook, afin d’améliorer la sécurité, ses propres produits et services et ceux de ses partenaires.

Mais contrairement à Google, qui offre un outil pour savoir ce qu’il sait de nous, Facebook a révélé plus tôt cette année au militant Paul Olivier Dehaye qu’il ne pouvait pas partager les données personnelles des utilisateurs avec eux.

Nous sommes tous les prisonniers de Hive !

Comme Facebook l’a déclaré dans une réponse envoyée par email et que Dehaye a partagé avec le Comité numérique de la Chambre des Communes britannique, il avait demandé des données concernant les annonces qu’il avait vues suite à l’utilisation par les annonceurs du produit Audience Personnalisée de Facebook. Il a également demandé quelles données personnelles Facebook détenait sur lui via Facebook Pixel au niveau de sites tier s: des données qui ne sont pas disponibles via ses outils en libre-service, car elles se trouvent dans un entrepôt de données Hive.

Les données Hive sont conservées séparément des bases de données relationnelles qui alimentent le site Facebook, a déclaré la plateforme sociale, et sont principalement organisées par heure, au format log. Cet entrepôt est vaste et rempli de données personnelles, mais il est trop difficile d’y accéder, a déclaré Facebook, et si tout le monde s’accorde pour demander ses données personnelles, nous allons tous exploser en plein vol !

Les données ne sont pas indexées par utilisateur, explique Facebook. Afin d’extraire les données d’un utilisateur au sein de Hive, chaque partition doit être recherchée en fonction de toutes les dates possibles afin de trouver les entrées relatives à l’identifiant d’un utilisateur en particulier.

Voici un extrait de la réponse faite par la plateforme sociale à Dehaye :

Facebook n’a tout simplement pas la capacité d’infrastructure nécessaire pour stocker les données log dans Hive sous une forme indexée par l’utilisateur de la même manière que les données de production utilisées pour le site principal de Facebook.  

Comme le souligne Dehaye, la réponse fournie par Facebook signifient que, à mesure que sa base d’utilisateurs augmente, son obligation de protection des données “diminue effectivement, à cause des choix délibérés en matière d’architecture”.

De même, Veale n’accepte pas l’argument de Facebook. Il a souligné que ceux qui effectuent des recherches sur le Big Data ont déjà clairement établi que même si ces données ne sont pas stockées avec un identifiant, les historiques de navigation sur le web peuvent être liés à des personnes utilisant uniquement des données accessibles au public. Il a aussi ajouté que l’apprentissage automatique étant de plus en plus utilisé et que d’autres modèles commençaient à émerger, a-t-il déclaré à The Register, notamment des informations sur la sexualité, les habitudes d’achat, les données de santé ou les orientations politiques :

L’historique de navigation web est incroyablement sensible.  

N’importe quelle mise en balance, tel que celle concernant des intérêts légitimes, doit reconnaître que ces données figurent parmi les données les plus intrusives pouvant être collectées sur des individus au 21ème siècle.  

Il a déclaré à The Register qu’il souhaitait démystifier la notion selon laquelle il était au-delà des ressources techniques de Facebook, ou de toute autre plateforme en ligne, de traiter des demandes comme celles-ci :

J’espère réfuter les arguments émergents selon lesquels les opérations de traitement de données des grandes plateformes liées au suivi sont trop importantes ou trop complexes pour être réglementées. 

En choisissant de fournir des informations conviviales (telles que celles servant les intérêts publicitaires) au lieu de données de suivi brutes, cela a pour effet de masquer certaines de ses pratiques les plus effrayantes. Il est également difficile de dire à quel point les bloqueurs de publicités ou de trackers fonctionnent sans ce type de données.


Billet inspiré de Facebook: It’s too tough to find personal data in our huge warehouse, sur Sophos nakedsecurity.

Exit mobile version