Attention, vos assistants vocaux entendent bien plus de choses que vous !

Un message en provenance d’Apple, avant le grand déploiement de l’iPhone 8 et de l’iOS11 le 12 septembre dernier, soulignait que son assistant vocal Siri allait davantage ressembler à un être humain et moins à un robot.

Bonne nouvelle pour l’expérience utilisateur. Mais en se basant sur un rapport publié la semaine dernière par une équipe de chercheurs de l’Université du Zhejiang en Chine, Apple aurait peut-être dû passer plus de temps sur ce que Siri entend vraiment, au lieu de se focaliser sur ce que les utilisateurs entendent.

En effet, ils ont démontré que Siri, comme d’ailleurs tous les autres assistants vocaux qu’ils ont testé, peut répondre à des commandes qui ne proviennent pas forcément d’un être humain, et qui ne se situent pas seulement en dehors de la gamme vocale humaine, mais aussi hors du spectre audible humain.

Ce qui signifie que votre chien pourrait probablement l’entendre. Mais cela signifie aussi qu’un cybercriminel pourrait donner un ordre à votre assistant vocal, et ce sans que vous le sachiez !

Dans le rapport, intitulé “Dolphin Attack : Inaudible Voice Commands“, les chercheurs ont déclaré qu’ils étaient en mesure de valider cette thèse sur Siri, Google Now, Samsung S Voice, Huawei HiVoice, Cortana et Alexa d’Amazon. En utilisant des commandes vocales dans le domaine des ultrasons et à des fréquences supérieures à 20 kHz, les assistants vocaux ont :

Visité un site web malveillant, “qui peut lancer une attaque drive-by-download ou encore exploiter un appareil via des vulnérabilités zero-day”.
Espionné l’utilisateur en passant des appels vidéos/téléphoniques sortants, obtenant du coup un accès à l’image et au son de l’environnement autour de l’appareil en question.
Injecté de fausses informations, en donnant des ordres au périphérique, ” afin d’envoyer de faux messages texte et emails, publier de faux articles en ligne, ajouter de faux événements à un calendrier, etc…”.
Infligé un déni de service, via une commande pour activer le mode avion, qui déconnectait du coup toutes les communications sans fil.
Dissimulé des attaques en obscurcissant l’écran et en diminuant le volume de l’appareil.
“testé des attaques, comme le lancement de Facetime sur les iPhones, la lecture de musique sur Echo Amazon et la manipulation du système de navigation dans un véhicule Audi”, a déclaré l’équipe, signifiant ainsi qu’un cybercriminel pouvait ainsi changer la destination de votre GPS.

Néanmoins il existe des limites, plutôt importantes, concernant la capacité à lancer ce type d’attaque. Elle ne peut pas être gérée à distance, depuis des kilomètres par exemple, comme le fameux piratage en 2015 d’une Jeep Cherokee par Charlie Miller et Chris Valasek. Bien que cela ne nécessite que 3$ de matériel environ, à ajouter à un smartphone, il faut tout de même être situé à quelques mètres voire quelques centimètres de la victime potentielle. Ainsi, un cybercriminel ne pourra pas dire à Alexa de déverrouiller la porte de derrière, si ce dernier n’est pas déjà dans votre maison !

Cependant, dans un lieu public, comme un métro bondé par exemple, il ne serait pas difficile de se rapprocher d’autres appareils.

Un autre obstacle, au niveau des smartphones, est que l’écran doit être déverrouillé pour que la plupart des commandes à base d’ultrasons fonctionnent. Siri pourra passer un appel téléphonique vers une personne présente dans la liste des contacts d’un utilisateur, et ce sans que l’écran ne soit déverrouillé, mais il ne pourra pas réaliser des actions plus sensibles, comme ouvrir un site web, ouvrir des applications tierces, effectuer une transaction financière ou envoyer des messages texte.

De toute évidence, cet obstacle disparaît dès lors qu’une action est entreprise par un utilisateur sur son téléphone, car de manière évidente cela signifie que ce dernier est déverrouillé. Mais si Siri reçoit une commande à base d’ultrasons imperceptibles, en provenance d’un cybercriminel, la victime ciblée est susceptible de jeter un coup d’œil à son téléphone, et de voir qu’une action inhabituelle est en cours.

Les experts ont fait des suggestions pour se défendre contre DolphinAttack, y compris la modification du micro, afin qu’il ne réponde à rien en dehors du spectre vocal humain.

Mais certains experts déclarent que le logiciel de reconnaissance vocale a effectivement besoin de ces fréquences, plus élevées et inaudibles, pour analyser ce que dit une personne. En effet, ces dernières font partie du langage humain, certes inaudible pour l’oreille humaine mais pas pour un ordinateur. Gadi Amit, fondateur de NewDealDesign, a déclaré à Fast Code Design que le fait que les technologies utilisées pour les assistants vocaux, ignorent les fréquences ultrasons pouvait avoir “un effet négatif réduisant ainsi l’efficacité en matière de compréhension globale du système“.

Encore une fois, si Apple et d’autres sont en mesure de rendre leurs assistants vocaux plus proches d’une voix humaine, alors peut-être qu’ils peuvent les configurer pour détecter lorsqu’une commande provient d’une source non humaine.

Ou bien, un utilisateur préoccupé par la sécurité et propriétaire d’un iPhone peut simplement se rendre dans Réglages | Siri | Autoriser “Dis Siri” et désactiver cette option, qui nécessitera alors d’appuyer sur le bouton Home pour émettre une commande.

Apple a refusé de commenter le rapport, tandis qu’Amazon a déclaré quant à lui :

Nous prenons très au sérieux la protection de la vie privée et la sécurité chez Amazon et nous sommes en train d’examiner le document publié par les chercheurs.

Pour l’instant, il semble qu’il s’agisse plus d’une démonstration des risques potentiellement encourus, que d’une catastrophe imminente en matière de cybersécurité. Les chercheurs doivent présenter leur rapport dans quelques mois à la ACM Conference on Computer and Communications Security. Mais, comme c’est le cas pour presque tous les types de technologies de piratage, elle est susceptible de s’améliorer. Il serait donc judicieux que les développeurs et les concepteurs des assistants vocaux prennent une longueur d’avance sur cette technologie malveillante, avec la mise en place d’une sécurité accrue dès à présent !

Billet inspiré de Your voice assistant can hear things you can’t – such as a hacker, sur Sophos nakedsecurity.

Attention, vos assistants vocaux entendent bien plus de choses que vous !

Sophos France

Lire des articles similaires

Sophos Mobile : déjà compatible avec iOS 11 et Android Oreo !

SIM swap : devez-vous arrêter d’utiliser le 2FA sur nos smartphones ?