Lecture labiale, qui est le meilleur : l’être humain ou l’Intelligence Artificielle ?

HAL 9000 : Je sais que toi et Frank prévoyez de me déconnecter, et j’ai bien peur que je ne puisse pas vous autoriser à le faire.

Astronaute Dave Bowman : Où tu vas chercher cela HAL ?

HAL 9000 : Dave, même si tu as fait attention pour que je ne t’entende pas dans la capsule, j’ai pu lire sur tes lèvres.

Un peu en avance sur son temps (au cas où vous n’auriez pas reconnu le dialogue de ce film, il s’agit de 2001 de Stanley Kubrick), mais les ordinateurs progressent très rapidement dans le domaine de la lecture labiale.

Il reste encore du chemin à parcourir. Cependant il est clair aujourd’hui que pour les humains, la lecture labiale est vraiment difficile, et sujette à de nombreuses erreurs d’interprétation. D’autre part, de nombreuses études ont montré que les ordinateurs dépassaient les performances de l’être humain dans le domaine, et étaient en constante et rapide progression. Ainsi, si vous avez été filmé avec une CCTV, avec ou sans le son, il est probable qu’il soit possible prochainement de savoir tout ce que vous avez dit.

La lecture labiale a été un sujet de recherche actif grâce à l’Intelligence Artificielle pendant des années. Deux nouveaux articles de l’Université d’Oxford ont montré la forte progression des résultats obtenus.

Dans le premier article, les chercheurs en informatique de l’Université d’Oxford ont entraîné leur système d’IA LipNet à partir d’un ensemble de 29 000 courts clips d’entrainement vidéo, développé soigneusement, et qui offrait les meilleurs scénarios possibles en matière de lecture labiale.

Selon Quartz :

Chaque personne était de face, bien éclairée, et parlait avec une structure syntaxique standardisée.

Le vocabulaire utilisé était quant à lui assez restreint et judicieusement sélectionné.

Les chercheurs ont ensuite testé équitablement à la fois des êtres humains et LipNet avec des 300 vidéos “idéales”. Les êtres humains obtiennent encore un taux d’erreur de 47.7% (vous pensez que vous pourrez faire mieux ? essayez donc vous-même !).

LipNet, néanmoins, a échoué à hauteur de 6.6%. Il a réussi à déchiffrer avec une précision de 93.4%, explosant le précédent record de 79.6% !

Pourquoi un tel résultat ? Il n’analyse pas seulement les changements spatio-temporels de la forme de la bouche lors qu’un humain parle, il fait également des prédictions basées sur l’intégralité de la phrase qui est en train d’être prononcée. De cette manière, il peut utiliser tout un écosystème de phrases pour améliorer le résultat. Vous pouvez découvrir l’article orignal pour plus de détails.

Ainsi, vous pensez surement : oui c’est très bien, mais les vidéos prises au hasard ne sont pas faites sur-mesure pour la lecture labiale. Que deviennent les résultats avec des vidéos plus réalistes ?

Pour répondre à cette question, nous nous retournons vers un autre article, écrit par des chercheurs du département “engineering Science” de l’Université d’Oxford et par des membres du projet Google DeepMind. Ce dernier se base sur 5000 heures de vidéos d’actualités et de débats programmés par la BBC, avec plusieurs intervenants différents et presque 17 500 mots différents (un anglais moyen de souche connait environ 20 000 à 35 000 mots). Cet ensemble de vidéos est moins artificiel que celui sur lequel se basait LipNet, mais les vidéos sont toujours bien éclairées, avec très peu de changement d’angle de vue et d’interruptions diverses.

Une fois leur nouveau système d’IA entraîné avec les anciennes vidéos de la BBC, les chercheurs se sont lancés avec des programmes récents de la BBC. Selon le New Scientist, il aurait atteint une précision de l’ordre de 46.8%. Rien de spectaculaire … mais les êtres humains, quant à eux, n’ont pu atteindre que 12.4% !

Les 2 groupes de chercheurs ont pu identifier des pistes d’amélioration pour leurs systèmes respectifs. Yannis Assael, du projet LipNet, a déclaré qu’il allait commencer à faire des tests avec les données de la BBC. En effet, il a reconnu qu’un ensemble de données plus grand et plus réaliste aidera à améliorer le système. Il s’agit d’une simple question de temps avant que de tels ensembles de données ne soient constitués. Ainsi ne soyez pas surpris si la lecture labiale via l’IA fera des progrès significatif dans un proche avenir.

Alors que la surveillance avancée est clairement un domaine d’application pour ce type de système, du moins dès que les micros à longe protée ne peuvent plus agir avec efficacité, il ne s’agit pas du seul concerné. En effet, en plus de la génération automatique de sous-titres ou légendes, il peut également améliorer les aides auditives et permettre une meilleure compréhension verbale en milieux bruyants

Enfin, comme l’écrit Jack Clark dans sa newsletter Import AI, à l’avenir si vous avez quelque chose de révolutionnaire à dire, vous feriez mieux de mettre un masque !

Follow @ SophosFrance //platform.twitter.com/widgets.js
Partagez Lecture labiale, qui est le meilleur : l’être humain ou l’Intelligence Artificielle ? : http://wp.me/p2YJS1-35B
Billet inspiré de Who’s better at reading lips – humans or AI?, par Bill Camarda, Sophos NakedSecurity.

Lecture labiale, qui est le meilleur : l’être humain ou l’Intelligence Artificielle ?

Lecture labiale, qui est le meilleur : l’être humain ou l’Intelligence Artificielle ?

Sophos France

Lire des articles similaires

Calendrier Sophos 2021 – Télécharger gratuitement ici

Qu’en pensez-vous ? Laissez un commentaire. Cancel reply