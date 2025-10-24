A photograph of a hand reaching out to lock a prison cell with a bunch of keys
Metterlo sotto chiave: una nuova tecnica per prevenire i jailbreak degli LLM

Dopo l’anteprima, ecco una panoramica completa del LLM salting: una nuova contromisura contro i jailbreak dei modelli linguistici di grandi dimensioni (LLM), sviluppata dai ricercatori di Sophos X-Ops
24 Ottobre 2025
Molte organizzazioni stanno implementando sempre più spesso modelli linguistici di grandi dimensioni (LLM) come la serie GPT di OpenAI, Claude di Anthropic, LLaMA di Meta e vari modelli di DeepSeek, con personalizzazioni minime. Questo riutilizzo diffuso porta a un’omogeneità dei modelli tra diverse applicazioni – dai chatbot agli strumenti di produttività – e crea una vulnerabilità di sicurezza: i jailbreak prompt che aggirano i meccanismi di rifiuto possono essere precomputati una volta e riutilizzati in molti contesti.
Ciò rispecchia il classico attacco con rainbow table nella sicurezza delle password, in cui gli aggressori sfruttano obiettivi crittografici comuni per riutilizzare input precomputati.

Questi jailbreak generalizzati sono un problema perché molte aziende utilizzano LLM rivolti ai clienti basati su determinate classi di modelli – il che significa che un singolo jailbreak potrebbe funzionare contro tutte le istanze costruite sopra quel modello. E, naturalmente, questi jailbreak potrebbero avere molteplici effetti indesiderati – dall’esposizione di dati interni sensibili alla produzione di risposte errate, inappropriate o persino dannose.

Ispirandoci al concetto di salting delle password – ovvero l’introduzione di piccole variazioni specifiche per utente per impedire il riutilizzo di input precomputati – abbiamo sviluppato una tecnica che chiamiamo “LLM salting”: introdurre variazioni mirate nel comportamento del modello per invalidare i jailbreak.
Abbiamo presentato questa tecnica di recente, alla 2025 Conference on Applied Machine Learning in Information Security (CAMLIS), e questo articolo approfondisce la nostra ricerca.

Tamás Vörös is a Senior Data Scientist at SophosAI, where he explores how machine learning and large language models can make cybersecurity smarter and safer. His recent projects include developing ways to harden AI models against jailbreak attacks (LLM Salting) and remove hidden backdoors (LLMBotomy).

Born and bred at SophosLabs straight out of university, Tamás has worked across web and spam protection, threat intelligence, and applied AI research. Over the years, his focus has shifted from hands-on detection systems to advancing the safety and interpretability of modern language models.

He regularly presents his research at conferences such as CAMLIS, Black Hat Europe, and Bsides. Tamás holds a Master’s degree in Computer Science from Eötvös Loránd University and is currently studying Psychology at Pázmány Péter University.

