Molte organizzazioni stanno implementando sempre più spesso modelli linguistici di grandi dimensioni (LLM) come la serie GPT di OpenAI, Claude di Anthropic, LLaMA di Meta e vari modelli di DeepSeek, con personalizzazioni minime. Questo riutilizzo diffuso porta a un’omogeneità dei modelli tra diverse applicazioni – dai chatbot agli strumenti di produttività – e crea una vulnerabilità di sicurezza: i jailbreak prompt che aggirano i meccanismi di rifiuto possono essere precomputati una volta e riutilizzati in molti contesti.
Ciò rispecchia il classico attacco con rainbow table nella sicurezza delle password, in cui gli aggressori sfruttano obiettivi crittografici comuni per riutilizzare input precomputati.
Questi jailbreak generalizzati sono un problema perché molte aziende utilizzano LLM rivolti ai clienti basati su determinate classi di modelli – il che significa che un singolo jailbreak potrebbe funzionare contro tutte le istanze costruite sopra quel modello. E, naturalmente, questi jailbreak potrebbero avere molteplici effetti indesiderati – dall’esposizione di dati interni sensibili alla produzione di risposte errate, inappropriate o persino dannose.
Ispirandoci al concetto di salting delle password – ovvero l’introduzione di piccole variazioni specifiche per utente per impedire il riutilizzo di input precomputati – abbiamo sviluppato una tecnica che chiamiamo “LLM salting”: introdurre variazioni mirate nel comportamento del modello per invalidare i jailbreak.
Abbiamo presentato questa tecnica di recente, alla 2025 Conference on Applied Machine Learning in Information Security (CAMLIS), e questo articolo approfondisce la nostra ricerca.
Continua a leggere.