Comme le savent déjà des dizaines de millions d’heureux propriétaires ravis, Siri, Alexa, Cortana et Google sont capables de réaliser de nombreuses actions, bien pratiques, en réponse à des commandes vocales.
Mais que faire si un hacker arrive à trouver un moyen de demander à ces assistants virtuels de réaliser des actions que le propriétaire ne souhaite pas ?
Des chercheurs ont étudié cette possibilité depuis quelques années et maintenant, selon un article du New York Times, des experts de l’Université de Californie à Berkeley ont montré comment un tel phénomène pouvait se produire.
Ils ont découvert qu’il était possible de dissimuler des instructions au sein d’une séquence audio, comme des commandes vocales ou des flux de musique, de telle sorte qu’elles soient inaudibles pour les humains.
Un être humain entendrait un son inoffensif que les assistants virtuels interpréteraient, par contre, comme des commandes vocales spécifiques.
Les chercheurs ont déjà démontré comment ce principe pouvait être utilisé pour tromper le moteur de synthèse vocale Mozilla DeepSpeech.
Le New York Times affirme que les chercheurs de l’UC Berkeley ont pu :
… intégrer des commandes vocales directement dans les enregistrements de musique ou de texte parlé. Ainsi, alors qu’un sujet humain écoute un individu parler ou un orchestre jouer, le haut-parleur Echo d’Amazon est capable d’entendre une instruction permettant d’ajouter un produit à votre liste de courses.
Comment les cybercriminels peuvent-ils exploiter cette technique ?
La réponse évidente est en manipulant la séquence audio intégrée à une émission de radio ou de télévision, un podcast, une vidéo YouTube, un jeu en ligne, voire même celle présente et lancée automatiquement au niveau d’un site web d’hameçonnage.
En ce qui concerne le type de commandes vocales, la réponse est : plus ou moins tout ce que l’on peut demander à l’appareil, composer un numéro de téléphone, accéder à un site web, et peut-être même faire un achat.
Par exemple, les chercheurs affirment qu’ils ont pu cacher l’expression “ok Google, accède au site evil.com” dans la phrase “sans une série de données, l’article est inutile“.
Les appareils vulnérables seraient ceux qui répondraient à ces commandes vocales, tels que des haut-parleurs et des smartphones.
Le problème qui ressort de cette étude est le manque de connaissance sur la manière avec laquelle les entreprises internet implémentent les technologies de reconnaissance vocale et comment, si c’est le cas, les protections adéquates sont intégrées.
À première vue, les smartphones seraient plus difficiles à manipuler car, dans la plupart des cas, ils nécessitent un déverrouillage par les utilisateurs avant que leurs assistants virtuels intégrés ne s’activent. En revanche, les haut-parleurs domestiques actifs en permanence peuvent être plus faciles à cibler.
De même, des vulnérabilités ont été découvertes dans la façon dont l’iPhone a implémenté son écran de verrouillage, tandis qu’un dysfonctionnement du Google Home Mini lui permettait d’enregistrer tout ce qu’il entendait, même quand rien ne lui était demandé !
Cette recherche est un réel signal d’alarme montrant que ces dispositifs pourraient, en théorie, être contrôlés à distance, sans être forcément mal utilisés.
Il semble qu’il y ait une forte tendance à intégrer la reconnaissance vocale dans toutes sortes d’appareils qui n’avaient jamais eu une telle fonctionnalité auparavant, y compris la sécurité domestique et le verrouillage des portes, qui génèrent de nouvelles inquiétudes concernant la sécurité et la protection de la vie privée.
Pour l’instant, il est beaucoup plus probable que la génération actuelle d’appareils soit ciblée pour mener une surveillance malveillante (y compris par les entreprises elles-mêmes), et moins pour implémenter des commandes vocales sophistiquées.
Mais comme les observateurs en matière de cybersécurité le savent très bien par expérience, la théorie ouvre très souvent la voie à la mise en pratique.
Billet inspiré de Alexa, Siri and Google can be tricked by commands you can’t hear, sur Sophos nakedsecurity.