Voitures autonomes : des labels pour piétons et cyclistes manquants dans le dataset

Cybersécurité

Un dataset populaire dédié aux voitures autonomes pour l’entraînement de systèmes d’apprentissage automatique dans le but de construire une véhicule autonome open-source, s’est avéré contenir des erreurs et des omissions critiques.

voitures autonomes

Ce dernier, utilisé par des milliers d’étudiants, était dépourvu de labels concernant des centaines d’images de cyclistes et de piétons.

Les modèles d’apprentissage automatique sont aussi bons que les données avec lesquelles ils sont entraînés. Mais lorsque des chercheurs de Roboflow, une entreprise qui écrit du code de vision par ordinateur standardisé, ont vérifié manuellement les 15 000 images dans Udacity Dataset 2, ils ont trouvé des problèmes avec 4986 de ces images, soit environ 33%.

À partir d’un résumé des conclusions de Roboflow, récemment publiées par son fondateur Brad Dwyer :

Parmi ces [données problématiques] figuraient des milliers de véhicules, des centaines de piétons et des dizaines de cyclistes, tous non labellisés. Nous avons également trouvé de nombreux cas d’annotations fantômes, des zones de délimitation dupliquées et des zones de délimitation considérablement surdimensionnées.

Mais peut-être plus flagrant encore, 217 (1,4%) images étaient complètement non labellisées mais contenaient en fait des voitures, des camions, des lampadaires et/ou des piétons.

Mauvaise entrée, mauvaise sortie ! Dans le cas de l’IA utilisée au niveau de ces voitures autonomes, les données indésirables peuvent littéralement entraîner la mort. Voici comment Dwyer décrit la manière avec laquelle ces données incorrectes/non labellisées se propagent à travers un système d’apprentissage automatique :

D’une manière générale, les modèles d’apprentissage automatique apprennent par l’exemple. Vous leur donnez une photo, ils font une prédiction, puis vous les orientez un peu plus dans la direction qui aurait rendu leur prédiction plus “juste”. Le terme “juste” dans notre cas est défini comme la “vérité du terrain”, à savoir ce que sont censées être vos données d’entraînement.

Si la vérité du terrain reflétée par vos données d’entraînement est erronée, votre modèle continuera d’apprendre avec plaisir à partir de ces données, mais il tirera simplement de mauvaises conclusions (par exemple, “ce groupe de pixels n’est * pas* un cycliste” vs “ce groupe de pixels *est* un cycliste”).

Les réseaux neuronaux réussissent à s’en sortir malgré *quelques* erreurs dans leurs données d’entraînement, mais lorsque 1/3 des images représentant la vérité du terrain posent des problèmes, les performances seront très certainement dégradées.

Ingénieurs en voitures autonomes, veuillez utiliser un dataset fixe

Grâce aux conditions de licence permissives des données open-source, Roboflow a corrigé et publié de nouveau un dataset Udacity pour voitures autonomes dans un certain nombre de formats. Dwyer demande à ceux qui entraînaient un modèle avec le dataset d’origine de bien vouloir passer au dataset mis à jour.

Dwyer n’a pas examiné d’autres datasets utilisés par les voitures autonomes, il n’est donc pas sûr de la quantité de mauvaises données utilisée via l’IA pour l’entraînement de modèles dans ce secteur en pleine croissance. Mais il a examiné des datasets dans d’autres domaines, trouvant que le Dataset 2 d’Udacity était particulièrement mauvais en comparaison avec d’autres, il a déclaré :

Parmi les datasets que j’ai examinés dans d’autres domaines (par exemple la médecine, les animaux, les jeux), celui-ci s’est révélé être d’une qualité particulièrement médiocre.

Une qualité de données médiocre comme celle-ci aurait-elle pu entraîner la mort d’Elaine Herzberg, 49 ans ? Elle a été tuée par une voiture autonome alors qu’elle traversait une rue en vélo à Tempe, en Arizona, en mars 2018. Uber a déclaré que sa mort était probablement due à un bug logiciel dans sa technologie de voiture autonome.

Dwyer ne pense pas que la mauvaise qualité des données ait quelque chose à voir avec cet accident tragique. Selon un rapport fédéral publié en novembre dernier, le SUV Uber autonome impliqué dans l’accident n’a pas pu déterminer si Herzberg était un piéton indiscipliné, un autre véhicule ou bien un vélo, et il n’a pas pu prédire la trajectoire de son déplacement. Son système de freinage n’a pas été conçu pour éviter une collision imminente, conclut le rapport fédéral.

J’ai contacté Vincent Vanhoucke, principal scientist & Director of Robotics chez Google, qui anime le cours d’Udacity sur la façon de devenir un ingénieur spécialisé en voitures autonomes, pour avoir son point de vue sur les mauvaises données et pour savoir s’il prévoit de passer aux datasets fixes. Je mettrai à jour cet article si j’obtiens un retour de sa part.

Au cours des prochaines semaines, Roboflow effectuera des expériences avec le dataset d’origine et le dataset fixe pour voir à quel point les mauvaises données auraient été problématiques pour l’entraînement de modèles aux architectures différentes.

Pour l’instant, Dwyer espère qu’Udacity mettra à jour le dataset qu’il transmet aux étudiants en ingénierie de voitures autonomes et que les entreprises qui mettront ce type de véhicule sur les routes seront plus rigoureuses dans leur approche que celle suggérée par ce dataset open source, et nettoieront leurs supports basés sur l’IA et servant à l’entraînement :

J’espère que les grandes entreprises qui mettront réellement des voitures sur les routes seront beaucoup plus rigoureuses avec leurs processus de labelling, de nettoyage et de vérification des données.

Dernier podcast Sophos-Naked Security


Billet inspiré de Self-driving car dataset missing labels for pedestrians, cyclists, sur Sophos nakedsecurity.

Leave a Reply

Your email address will not be published.