Lors de la conférence Virus Bulletin 2024, Younghoo Lee, Principal Data Scientist chez Sophos, a présenté un article sur les recherches de SophosAI en matière d’IA “multimodale” (un système qui intègre divers types de données dans un framework analytique unifié). Dans son exposé, Lee a exploré les nouvelles recherches empiriques de l’équipe concernant l’utilisation de l’IA multimodale pour la détection des spams, du phishing et du contenu Web dangereux.
Qu’est-ce que l’IA multimodale ?
L’IA multimodale représente un changement important dans l’intelligence artificielle. Plutôt que l’analyse monomodale traditionnelle, les systèmes multimodaux peuvent traiter plusieurs flux de données simultanément, en synthétisant les données provenant de plusieurs entrées différentes.
Dans le contexte de la cybersécurité, et notamment lorsqu’il s’agit de classer les menaces, il s’agit d’une capacité puissante. Plutôt que d’analyser séparément le contenu textuel et visuel, un système multimodal peut traiter les deux et “comprendre” les relations complexes entre ces derniers.
Par exemple, dans la détection du phishing, l’IA multimodale examine les modèles linguistiques et le style d’écriture du texte ainsi que le respect du visuel des logos et des éléments de marque, tout en analysant la cohérence sémantique entre les composants textuels et visuels. Cette approche holistique signifie que le système peut identifier des attaques sophistiquées qui pourraient sembler légitimes aux systèmes plus traditionnels. De plus, l’IA multimodale peut apprendre et s’adapter aux corrélations entre différents types de données, développant ainsi une idée de la manière dont le contenu légitime et malveillant diffère selon plusieurs dimensions.
Capacités
Dans ses recherches, Lee détaille certaines des capacités en matière de détection des systèmes d’IA multimodale :
Analyse de texte et compréhension du langage naturel
- Analyse des modèles linguistiques, du style d’écriture et des indices contextuels pour identifier les tentatives de manipulation.
- Détection de tactiques d’ingénierie sociale telles que l’urgence fabriquée et les demandes inhabituelles de données sensibles.
- Maintenance d’une base de données évolutive en matière de prétextes et de récits de phishing.
Intelligence visuelle et vérification de la marque
- Comparaison des logos, du style propre à l’entreprise et des mises en page visuelles avec des modèles légitimes.
- Détection de différences subtiles dans les couleurs, les polices et les mises en page de la marque.
- Examen des métadonnées d’image et des signatures numériques.
Analyse avancée des URL et de la sécurité
- Identification des techniques trompeuses telles que le typosquatting et les attaques homographes.
- Analyse des relations entre le texte du lien affiché et les destinations réelles.
- Détection des tentatives de masquage d’URL malveillantes avec des astuces en matière de style et de formatage.
Étude de cas : un faux email de Costco
L’image ci-dessous est une véritable tentative de phishing, conçue pour tromper les destinataires en leur faisant croire qu’ils ont gagné un prix chez Costco. L’email semble officiel, avec une imitation du logo et de la marque Costco.
Figure 1 : Capture d’écran d’un email de phishing, prétendument de Costco
L’IA multimodale peut identifier plusieurs points suspects dans cet email, notamment :
- Phrases utilisées pour inciter à l’urgence et à l’action.
- Le domaine de messagerie de l’expéditeur ne correspond pas aux domaines légitimes.
- Incohérences avec les logos et les images.
En conséquence, le système attribue un score élevé à l’email, le signalant comme suspect.
SophosAI a également appliqué l’IA multimodale aux sites Web NSFW (non sécurisés pour le contexte professionnel) renfermant du contenu lié aux jeux d’argent, aux armes, etc. Comme pour la classification des emails de phishing, la détection s’appuie sur un certain nombre de fonctionnalités, notamment l’évaluation des mots-clés et des expressions (indépendamment de la langue) ainsi que l’analyse des images et des graphiques.
Résultats expérimentaux
Pour tester l’efficacité de l’IA multimodale par rapport aux modèles de Machine Learning traditionnels tels que Random Forest et XGBoost, SophosAI a mené une série d’expériences empiriques. Les résultats complets sont disponibles dans le livre blanc de Lee et la conférence Virus Bulletin mais, pour résumer, les modèles traditionnels ont bien fonctionné lors de la détection de menaces connues et ont eu du mal avec les nouveaux emails de phishing jamais observés auparavant. Leurs scores F1 (une mesure qui équilibre la précision et le rappel pour donner une représentation globale de la précision entre 0 et 1) étaient aussi bas que 0,53 avec des échantillons nouveaux, atteignant un maximum de 0,66. En revanche, l’IA multimodale (utilisant GPT-4o) a obtenu de très bons résultats dans la détection de nouvelles tentatives de phishing, atteignant des scores F1 allant jusqu’à 0,97 même sur des marques jamais observées auparavant.
L’histoire était similaire avec le contenu NSFW ; les modèles traditionnels ont obtenu des scores F1 allant environ de 0,84 à 0,88, mais les modèles avec des intégrations d’IA multimodale ont obtenu des scores allant jusqu’à 0,96.
Conclusion
Le paysage numérique est en constante évolution, apportant avec lui une multitude de nouvelles menaces, notamment l’utilisation de l’IA générative pour tromper les utilisateurs. Les emails de phishing imitent désormais méticuleusement et systématiquement les communications légitimes, tandis que les sites Web NSFW cachent du contenu nuisible derrière des visuels trompeurs. Si les méthodes traditionnelles de cybersécurité restent importantes, elles sont de plus en plus inadéquates à elles seules. L’IA multimodale offre une couche de défense innovante qui améliore notre compréhension du contenu.
En détectant efficacement les emails de phishing sophistiqués et en classant avec précision les sites Web NSFW, l’IA multimodale protège non seulement les utilisateurs plus efficacement, mais s’adapte également aux nouvelles menaces. Les résultats expérimentaux présentés par Lee dans son article montrent des améliorations significatives par rapport aux méthodes traditionnelles.
À l’avenir, l’intégration de l’IA multimodale dans les stratégies de cybersécurité n’est pas seulement bénéfique ; elle est cruciale pour garantir la protection de notre environnement numérique dans un contexte de complexités et de menaces croissantes.
Pour obtenir plus d’informations, le livre blanc complet de Lee est disponible sur la page dédiée. Un enregistrement de sa conférence lors du Virus Bulletin 2024 est disponible en vous rendant sur l’espace dédié (avec les slides associés).
Billet inspiré de The sixth sense for cyber defense: Multimodal AI, sur le Blog Sophos.