A photograph of a hand reaching out to lock a prison cell with a bunch of keys

Metterlo sotto chiave: una nuova tecnica per prevenire i jailbreak degli LLM

Dopo l’anteprima, ecco una panoramica completa del LLM salting: una nuova contromisura contro i jailbreak dei modelli linguistici di grandi dimensioni (LLM), sviluppata dai ricercatori di Sophos X-Ops

Scritto da Tamás Vörös

24 Ottobre 2025

AI Research AI CAMLIS featured jailbreak LLM salting Sophos X-Ops

Molte organizzazioni stanno implementando sempre più spesso modelli linguistici di grandi dimensioni (LLM) come la serie GPT di OpenAI, Claude di Anthropic, LLaMA di Meta e vari modelli di DeepSeek, con personalizzazioni minime. Questo riutilizzo diffuso porta a un’omogeneità dei modelli tra diverse applicazioni – dai chatbot agli strumenti di produttività – e crea una vulnerabilità di sicurezza: i jailbreak prompt che aggirano i meccanismi di rifiuto possono essere precomputati una volta e riutilizzati in molti contesti.
Ciò rispecchia il classico attacco con rainbow table nella sicurezza delle password, in cui gli aggressori sfruttano obiettivi crittografici comuni per riutilizzare input precomputati.

Questi jailbreak generalizzati sono un problema perché molte aziende utilizzano LLM rivolti ai clienti basati su determinate classi di modelli – il che significa che un singolo jailbreak potrebbe funzionare contro tutte le istanze costruite sopra quel modello. E, naturalmente, questi jailbreak potrebbero avere molteplici effetti indesiderati – dall’esposizione di dati interni sensibili alla produzione di risposte errate, inappropriate o persino dannose.

Ispirandoci al concetto di salting delle password – ovvero l’introduzione di piccole variazioni specifiche per utente per impedire il riutilizzo di input precomputati – abbiamo sviluppato una tecnica che chiamiamo “LLM salting”: introdurre variazioni mirate nel comportamento del modello per invalidare i jailbreak.
Abbiamo presentato questa tecnica di recente, alla 2025 Conference on Applied Machine Learning in Information Security (CAMLIS), e questo articolo approfondisce la nostra ricerca.

Continua a leggere.

L’autore

Tamás Vörös

Tamás Vörös is a Senior Data Scientist at SophosAI, where he explores how machine learning and large language models can make cybersecurity smarter and safer. His recent projects include developing ways to harden AI models against jailbreak attacks (LLM Salting) and remove hidden backdoors (LLMBotomy).

Born and bred at SophosLabs straight out of university, Tamás has worked across web and spam protection, threat intelligence, and applied AI research. Over the years, his focus has shifted from hands-on detection systems to advancing the safety and interpretability of modern language models.

He regularly presents his research at conferences such as CAMLIS, Black Hat Europe, and Bsides. Tamás holds a Master’s degree in Computer Science from Eötvös Loránd University and is currently studying Psychology at Pázmány Péter University.

Leggi articoli simili

1 Aprile 2021

Metterlo sotto chiave: una nuova tecnica per prevenire i jailbreak degli LLM

Tamás Vörös

Leggi articoli simili

Disponibile il Portal Encryption per Sophos Email

Sophos è stata nominata Leader nel report di IDC sul Mobile Threat Management

Share this:

Tamás Vörös

Leggi articoli simili

Nel cloud? In azienda? Proteggi le tue risorse ovunque si trovino

Disponibile il Portal Encryption per Sophos Email

Sophos è stata nominata Leader nel report di IDC sul Mobile Threat Management