LLM salting
AI Research

LLM Salting : SophosAI dévoile une nouvelle défense contre le jailbreaking au CAMLIS 2025

Du 22 au 24 octobre, SophosAI a présenté au CAMLIS 2025 des recherches sur le "LLM Salting" (une nouvelle défense contre les jailbreaks) et la classification des lignes de commande.

Les scientifiques de l’équipe SophosAI ont présenté leurs recherches lors du dernier CALMIS (Conference on Applied Machine Learning in Information Security) à Arlington, en Virginie.

Le 23 octobre dernier, Ben Gelman, Senior Data Scientist, a présenté une session poster sur la détection d’anomalies en ligne de commande, une recherche qu’il a déjà présentée au Black Hat USA 2025 et que nous avons explorée dans un précédent article de blog.

Tamás Vörös, Senior Data Scientist, a donné une conférence le 22 octobre intitulée “LLM Salting : From Rainbow Tables to Jailbreak“, portant sur un mécanisme de défense léger contre les jailbreaks de grands modèles de langage (LLM : Large Language Model).

Les LLM tels que GPT, Claude, Gemini et LLaMA sont de plus en plus déployés avec une personnalisation minimale. Cette réutilisation généralisée conduit à une homogénéité des modèles entre les applications, des chatbots aux outils de productivité. Cette situation peut conduire à une vulnérabilité de sécurité : les invites de jailbreak qui contournent les mécanismes de refus (une barrière de sécurité empêchant un modèle de fournir un type particulier de réponse) peuvent être précalculées une fois et réutilisées dans de nombreux déploiements. Cette technique est similaire à l’attaque classique appelée rainbow table dans l’univers de la sécurité des mots de passe, où des entrées précalculées sont utilisées au niveau de plusieurs cibles.

Ces jailbreaks généralisés constituent un problème car de nombreuses entreprises disposent de LLM orientés client construits sur des classes de modèle, signifiant ainsi qu’un jailbreak pourrait fonctionner contre toutes les instances construites sur un modèle donné. Et, bien sûr, ces jailbreaks pourraient avoir de multiples impacts indésirables, allant de l’exposition de données internes sensibles à la production de réponses incorrectes, inappropriées, voire nuisibles.

S’inspirant du monde de la cryptographie, Tamás et son équipe ont développé une nouvelle technique appelée “LLM Salting”, une méthode légère basée sur un paramétrage précis qui perturbe la réutilisation du jailbreak.

S’appuyant sur des travaux récents montrant que le comportement de refus est régi par une seule direction en matière d’activation de l’espace, le “LLM Salting” applique une petite rotation ciblée à cette “direction de refus”. Cette stratégie préserve les capacités générales, mais invalide les jailbreaks précalculés, forçant ainsi les adversaires à recalculer les attaques pour chaque copie “salted” du modèle.

Dans leurs expériences, Tamás et son équipe ont découvert que le “LLM salting” était significativement plus efficace pour réduire le succès du jailbreak que les réglages fins standard et les modifications d’invite du système, rendant ainsi les déploiements plus robustes contre les attaques, sans sacrifier la précision.

Dans son exposé, Tamás a partagé les résultats de ses recherches et la méthodologie de ses expériences, soulignant comment le “LLM Salting” pouvait aider à protéger les entreprises, les propriétaires de modèles et les utilisateurs des techniques de jailbreak généralisées.

Nous publierons un article plus détaillé sur ce nouveau mécanisme de défense après la conférence du CAMLIS.

Billet inspiré de Getting salty with LLMs: SophosAI unveils new defense against jailbreaking at CAMLIS 2025, sur le Blog Sophos.