La dynamisation des petits modèles IA pour gérer la cybersécurité

Ces derniers mois et ces dernières années ont vu une vague d’intégration de l’IA dans de nombreux secteurs, portée par les nouvelles technologies et l’enthousiasme au niveau mondial. Il existe des copilotes, des modèles de synthèse, des assistants de code et des chatbots à tous les niveaux d’une organisation, des services d’ingénierie aux RH. L’impact de ces modèles n’est pas seulement professionnel, mais aussi personnel : il améliore notre capacité à écrire du code, à localiser des informations, à résumer un texte complexe et à réfléchir à de nouvelles idées.

Toutes ces évolutions peuvent sembler très récentes, mais l’IA est intégrée à la cybersécurité depuis de nombreuses années maintenant. Il reste cependant encore des améliorations à apporter. Dans notre secteur, par exemple, les modèles sont souvent déployés à grande échelle, traitant des milliards d’événements par jour. Les grands modèles de langage (LLM : Large Language Models), les modèles qui font généralement la Une des journaux, fonctionnent bien et sont populaires, mais sont mal adaptés à ce type d’utilisation.

L’hébergement d’un LLM pour traiter des milliards d’événements nécessite une infrastructure GPU étendue et des espaces mémoire très importants, même après la mise en œuvre de techniques d’optimisation telles que celles basées sur les noyaux spécialisés ou le partitionnement du cache de valeurs clés avec des tables de consultation. Le coût et la maintenance associés ne peuvent tout simplement pas être pris en charge par de nombreuses entreprises, en particulier dans les scénarios de déploiement, tels que les pare-feu ou la classification de documents, où un modèle doit s’exécuter sur un système endpoint client.

Étant donné que les exigences en termes de calcul liées à la maintenance des LLM les rendent peu pratiques pour de nombreuses applications liées à la cybersécurité, en particulier celles nécessitant un traitement en temps réel ou à grande échelle, des modèles petits et efficaces peuvent alors jouer un rôle essentiel.

De nombreuses tâches de cybersécurité ne nécessitent pas de solutions génératives et peuvent plutôt être résolues par classification avec de petits modèles, qui sont rentables et capables de fonctionner sur des systèmes endpoint ou au sein d’une infrastructure Cloud. Même certains aspects des copilotes de sécurité, souvent considérés comme le cas d’usage en mode prototype de l’IA générative au niveau de la cybersécurité, peuvent être décomposés en tâches résolues par classification, telles que le tri et la priorisation des alertes. Les petits modèles peuvent également répondre à de nombreux autres défis de cybersécurité, notamment la détection de binaires malveillants, la classification de ligne de commande, la classification des URL, la détection HTML malveillante, la classification des emails, la classification des documents, etc.

Une question clé lorsqu’il s’agit de petits modèles est leur performance, qui est limitée par la qualité et l’échelle des données d’entraînement. En tant qu’éditeur de cybersécurité, nous disposons d’une surabondance de données, mais la question se pose toujours de savoir comment utiliser au mieux ces dernières. Traditionnellement, une approche permettant d’extraire des signaux précieux à partir des données a été nommée la “boucle feedback IA-analyste”. Dans un SOC assisté par l’IA, les modèles sont améliorés en intégrant les classements et les recommandations des analystes sur les prédictions du modèle. Cette approche est toutefois limitée en termes d’échelle du fait de l’effort manuel à mettre en œuvre.

C’est là que les LLM ont un rôle à jouer. L’idée est simple mais véritablement innovante : utiliser de grands modèles de manière intermittente et stratégique pour entraîner les petits modèles plus efficacement. Les LLM sont l’outil le plus efficace pour extraire des signaux utiles à partir de données à grande échelle, modifier les étiquettes (labels) existantes, fournir de nouvelles étiquettes et créer des données qui complètent la distribution actuelle.

En exploitant les capacités des LLM lors du processus d’entraînement de modèles plus petits, nous pouvons améliorer considérablement leurs performances. La fusion des capacités d’apprentissage avancées des grands modèles coûteux avec la grande efficacité des petits modèles permet de créer des solutions rapides, commercialement viables et efficaces.

Trois méthodes, que nous explorerons en profondeur dans cet article, sont essentielles à cette approche : la distillation des connaissances (knowledge distillation), l’apprentissage semi-supervisé (semi-supervised learning) et la génération de données synthétiques (synthetic data generation).

Dans la distillation des connaissances, le grand modèle enseigne au petit modèle en transférant les connaissances acquises, améliorant ainsi les performances du petit modèle sans les coûts globaux d’un déploiement à grande échelle. Cette approche est également utile dans les domaines avec un bruit non négligeable au niveau de l’étiquetage (labeling) qui ne peut pas être réduit par un réétiquetage manuel.
L’apprentissage semi-supervisé permet aux grands modèles d’étiqueter des données auparavant non étiquetées, créant ainsi des ensembles de données plus riches pour l’entraînement de petits modèles.
La génération de données synthétiques implique de grands modèles produisant de nouveaux exemples synthétiques qui peuvent ensuite être utilisés pour entraîner de petits modèles de manière plus robuste.

Distillation des connaissances

La célèbre “Bitter Lesson” de l’apprentissage automatique (Machine Learning), selon Richard Sutton, stipule que “les méthodes qui exploitent le calcul sont en fin de compte les plus efficaces”. Les modèles s’améliorent avec davantage de ressources informatiques et davantage de données. Le déploiement à grande échelle d’un ensemble de données de haute qualité n’est pas une tâche facile, car les analystes experts ne disposent que d’un temps limité pour étiqueter manuellement les événements. Par conséquent, les ensembles de données sont souvent étiquetés à l’aide de divers signaux, dont certains peuvent comporter un certain niveau de bruit.

Lors de l’entraînement d’un modèle pour classer un artefact, les étiquettes fournies pendant l’entraînement sont généralement classées par catégories : 0 ou 1, inoffensif ou malveillant. Dans la distillation des connaissances, un modèle de type étudiant est entraîné sur une combinaison mêlant étiquettes catégorielles et distribution de sortie d’un modèle de type enseignant. Cette approche permet à un modèle plus petit et moins cher d’apprendre et de copier le comportement d’un modèle enseignant plus grand et mieux formé, même en présence d’étiquettes bruyantes.

Un grand modèle est souvent pré-entraîné indépendamment des étiquettes et invité à prédire la partie suivante d’une séquence ou les parties masquées d’une séquence en utilisant le contexte disponible. Cette approche fournit une connaissance générale au niveau de la langue ou de la syntaxe, après quoi seule une petite quantité de données de haute qualité est nécessaire pour aligner le modèle pré-entraîné sur une tâche donnée. Un grand modèle entraîné sur des données étiquetées par des analystes experts peut enseigner à un petit modèle de type étudiant en utilisant de grandes quantités de données potentiellement bruyantes.

Nos recherches sur les modèles de classification de ligne de commande (que nous avons présentées lors de la Conférence intitulée Applied Machine Learning in Information Security (CAMLIS) en octobre 2024) corroborent cette approche. Les LOLBins (Living-Off-the-Land Binaries), utilisent des binaires généralement inoffensifs sur le système d’exploitation de la victime pour masquer un comportement malveillant. En utilisant la distribution de sortie d’un grand modèle de type enseignant, nous avons entraîné un petit modèle de type étudiant sur un grand ensemble de données, initialement étiqueté avec des signaux bruyants, pour classer les commandes comme un événement inoffensif ou une attaque LOLBins. Nous avons comparé le modèle étudiant au modèle de production actuel (figure 1). Les résultats sont indiscutables. Le nouveau modèle a surpassé le modèle de production de manière significative, comme en témoignent la réduction des faux positifs et l’augmentation des vrais positifs sur une période précise d’observation. Cette approche a non seulement renforcé nos modèles existants, mais l’a fait de manière rentable, démontrant l’utilisation de grands modèles pendant l’entraînement pour faire évoluer l’étiquetage d’un grand ensemble de données.

Figure 1 : Différence de performance entre l’ancien modèle de production et le nouveau modèle distillé

Apprentissage semi-supervisé

Dans le secteur de la sécurité, de grandes quantités de données sont générées à partir de la télémétrie client qui ne peuvent pas être efficacement étiquetées par des signatures, un clustering, une analyse manuelle ou bien d’autres méthodes d’étiquetage. Comme c’était le cas dans la section précédente avec des données étiquetées de manière bruyante, il n’est pas non plus possible d’annoter manuellement, à l’échelle requise, des données non étiquetées pour l’amélioration du modèle. Cependant, les données de télémétrie contiennent des informations utiles reflétant la distribution que le modèle connaîtra une fois déployé et ne doivent donc pas être ignorées.

L’apprentissage semi-supervisé exploite à la fois les données non étiquetées et étiquetées pour améliorer les performances du modèle. Dans notre paradigme de modèle grand/petit, nous mettons en œuvre cette approche en entraînant ou en affinant initialement un grand modèle sur l’ensemble de données étiqueté d’origine. Ce grand modèle est ensuite utilisé pour générer des étiquettes pour les données non étiquetées. Si les ressources et le temps le permettent, ce processus peut être répété de manière itérative en entraînant de nouveau le grand modèle sur les données nouvellement étiquetées et en mettant à jour les étiquettes avec les prédictions du modèle amélioré. Une fois le processus itératif terminé, soit en raison de contraintes budgétaires, soit en raison du plafonnement des performances du grand modèle, l’ensemble de données final, désormais complété par des étiquettes du grand modèle, est utilisé pour entraîné un petit modèle efficace.

Nous avons obtenu des performances proches de celles d’un LLM avec notre petit modèle de classification de la productivité des sites Web en utilisant cette technique d’apprentissage semi-supervisé. Nous avons affiné un LLM (T5 Large) sur les URL étiquetées par des signatures et l’avons utilisé pour prédire la catégorie de productivité des sites Web non étiquetés. Avec un nombre fixe d’échantillons d’entraînement, nous avons testé les performances de petits modèles entraînés avec différentes compositions de données, initialement sur des données étiquetées par signature uniquement, puis en augmentant le ratio de données initialement non étiquetées qui ont ensuite été étiquetées par le LLM entraîné. Nous avons testé les modèles sur des sites Web dont les domaines étaient absents de l’ensemble d’entraînement. Dans la figure 2, nous pouvons voir qu’à mesure que nous avons utilisé davantage d’échantillons non étiquetés, les performances des petits réseaux (dont le plus petit, eXpose, a un peu plus de 3 000 000 de paramètres, soit environ 238 fois moins que le LLM) se sont rapprochées des performances de la configuration LLM la plus performante. Ces résultats démontrent que le petit modèle a reçu des signaux utiles provenant de données non étiquetées pendant l’entraînement, qui ressemblent à la longue traîne d’Internet observée pendant le déploiement. Cette forme d’apprentissage semi-supervisé est une technique particulièrement puissante en cybersécurité en raison de la grande quantité de données non étiquetées issues de la télémétrie. Les grands modèles nous permettent de débloquer des données auparavant inutilisables et d’atteindre de nouveaux sommets en termes d’efficacité et de performances avec des modèles rentables.

Figure 2 : Amélioration des performances des petits modèles à mesure que la quantité de données étiquetées LLM augmente

Génération de données synthétiques

Jusqu’à présent, nous avons examiné des cas dans lesquels nous utilisions des sources de données existantes, étiquetées ou non, pour augmenter les données d’entraînement et donc les performances de nos modèles. La télémétrie client n’est pas exhaustive et ne reflète pas toutes les distributions possibles qui peuvent exister. La collecte de données hors distribution est impossible lorsqu’elle est effectuée manuellement. Au cours de leur entraînement préalable, les LLM sont exposés à de vastes quantités, de l’ordre de plusieurs milliers de milliards de jetons, de connaissances enregistrées et accessibles au public. Selon la littérature technique disponible, cette pré-entraînement a un impact important sur les connaissances que conserve un LLM. Le LLM peut générer des données similaires à celles auxquelles il a été exposé lors de son pré-entraînement. En fournissant un déclencheur/seed, (ou un exemple d’artefact de nos sources de données actuelles au LLM, nous pouvons générer de nouvelles données synthétiques).

Dans des travaux précédents, nous avons démontré qu’en partant d’un simple modèle de e-commerce, les agents orchestrés par GPT-4 pouvaient générer tous les aspects d’une campagne d’escroquerie, du HTML à la publicité, et que cette campagne pouvait être étendue à un nombre arbitraire de vitrines de e-commerce de type phishing. Chaque vitrine comprenait une page de destination affichant un catalogue de produits unique, une fausse page de connexion Facebook pour voler les identifiants de connexion des utilisateurs et une fausse page de paiement pour voler les détails de la carte de crédit. Un exemple de fausse page de connexion Facebook est affiché dans la figure 3. Des vitrines ont été créées pour les produits suivants : bijoux, thé, rideaux, parfums, lunettes de soleil, coussins et sacs.

Figure 3 : Page de connexion Facebook générée par lA à partir d’une campagne d’escroquerie. Bien que l’URL semble réelle, il s’agit d’un faux cadre conçu par IA pour paraître réel.

Nous avons évalué le code HTML de la fausse page de connexion Facebook pour chaque vitrine à l’aide d’un modèle de classification binaire de production. Étant donné les jetons d’entrée extraits du HTML avec une expression courante, le réseau neuronal se compose de composants ‘master’ et ‘inspector’ qui permettent d’examiner le contenu au niveau d’échelles spatiales hiérarchiques. Le modèle de production a évalué avec assurance chaque fausse page de connexion Facebook comme étant inoffensive. Les résultats du modèle sont affichés dans le tableau 1. Les faibles scores indiquent que le HTML généré par GPT-4 est en dehors de la distribution d’entraînement du modèle de production.

Nous avons créé deux nouveaux ensembles d’entraînement avec du HTML synthétique à partir des vitrines. L’ensemble V1 réserve les vitrines “coussins” et “sacs” à l’ensemble de test (holdout set), et toutes les autres vitrines sont utilisées dans l’ensemble d’entraînement. L’ensemble V2 utilise la vitrine “bijoux” pour l’ensemble d’entraînement, et toutes les autres vitrines sont utilisées dans l’ensemble de test (holdout set). Pour chaque nouvel ensemble d’entraînement, nous avons entraîné le modèle de production jusqu’à ce que tous les échantillons de cet ensemble soient classés comme malveillants. Le tableau 1 montre les scores du modèle sur les données de test (holdout data) après l’entraînement sur les ensembles V1 et V2.

	Modèles
Vitrine de phishing	Production	V1	V2
Bijoux	0,0003	–	–
Thé	0,0003	–	0,8164
Rideaux	0,0003	–	0,8164
Parfums	0,0003	–	0,8164
Lunettes de soleil	0,0003	–	0,8164
Coussins	0,0003	0,8244	0,8164
Sacs	0,0003	0,5100	0,5001

Tableau 1 : Le modèle de classification binaire HTML évalue les scores des fausses pages de connexion Facebook avec HTML généré par GPT-4. Les sites Web utilisés dans les ensembles d’entraînement ne sont pas évalués pour les données V1/V2.

Pour garantir que l’entraînement continu ne compromette pas le comportement du modèle de production, nous avons évalué les performances sur un ensemble de test supplémentaire. À l’aide de notre télémétrie, nous avons collecté tous les échantillons HTML avec une étiquette du mois de juin 2024. L’ensemble de test de juin comprend 2 927 719 échantillons, dont 1 179 562 échantillons malveillants et 1 748 157 échantillons inoffensifs. Le tableau 2 présente les performances du modèle de production et celles des deux expériences d’entraînement. L’entraînement continu améliore les performances générales du modèle sur la télémétrie réelle.

	Modèles
Métrique	Production	V1	V2
Précision	0,9770	0,9787	0,9787
AUC	0,9947	0,9949	0,9949
Macro Avg F1 Score	0,9759	0,9777	0,9776

Tableau 2 : Performances des modèles synthétiques entraînés et comparées au modèle de production sur des données HTML réelles.

Réflexions finales

La convergence des grands et des petits modèles ouvre de nouvelles voies en matière de recherche, nous permettant de réviser des modèles obsolètes, d’utiliser des sources de données non étiquetées auparavant inaccessibles et d’innover dans le domaine des petits modèles de cybersécurité rentables. L’intégration des LLM dans les processus d’entraînement de modèles plus petits présente une approche commercialement viable et stratégiquement sensée, augmentant ainsi les capacités des petits modèles sans nécessiter un déploiement de LLM, à grande échelle, coûteux en termes de calcul.

Alors que les LLM ont dominé le discours récent sur l’IA et la cybersécurité, un potentiel plus prometteur réside dans l’exploitation de leurs capacités pour renforcer les performances de petits modèles efficaces qui constituent l’épine dorsale des opérations de cybersécurité. En adoptant des techniques telles que la distillation des connaissances, l’apprentissage semi-supervisé et la génération de données synthétiques, nous pouvons continuer à innover et à améliorer les utilisations fondamentales de l’IA dans la cybersécurité, en garantissant que les systèmes restent résilients, robustes et en avance sur leur temps dans un paysage de menaces en constante évolution. Ce changement de paradigme maximise non seulement l’utilité de l’infrastructure IA existante, mais démocratise également les capacités avancées en matière de cybersécurité, les rendant ainsi accessibles aux entreprises de toutes tailles.

Billet inspiré de Small world: The revitalization of small AI models for cybersecurity, sur le Blog Sophos.

La dynamisation des petits modèles IA pour gérer la cybersécurité

Distillation des connaissances

Apprentissage semi-supervisé

Génération de données synthétiques

Réflexions finales

Sean Bergeron

Ben Gelman

Lire des articles similaires

ToolShell : des vulnérabilités SharePoint en cours d’exploitation

Threat Intelligence Executive Report (Volume 2025, Numéro 3)

Utiliser l’IA pour identifier les cerveaux pilotant la cybercriminalité

Distillation des connaissances

Apprentissage semi-supervisé

Génération de données synthétiques

Réflexions finales

Share this:

Sean Bergeron

Ben Gelman

Lire des articles similaires

ToolShell : des vulnérabilités SharePoint en cours d’exploitation

Threat Intelligence Executive Report (Volume 2025, Numéro 3)

Utiliser l’IA pour identifier les cerveaux pilotant la cybercriminalité