A salt shaker lying flat on a blue tabletop, with the lid off and salt spilling out on to the table
AI Research

Un pizzico di sale per gli LLM: SophosAI presenta una nuova difesa contro i jailbreak al CAMLIS 2025

Dal 22 al 24 ottobre, SophosAI presenterà le sue ricerche sul “LLM salting” (una nuova contromisura contro i jailbreak) e sulla classificazione da riga di comando al CAMLIS 2025

Gli scienziati del team SophosAI presenteranno le loro ricerche alla prossima Conference on Applied Machine Learning in Information Security (CAMLIS) ad Arlington, Virginia.

Il 23 ottobre, il Senior Data Scientist Ben Gelman terrà una sessione poster sull’individuazione di anomalie nella riga di comando, una ricerca già presentata a Black Hat USA 2025 e approfondita in un precedente articolo del nostro blog.

Il Senior Data Scientist Tamás Vörös terrà invece, il 22 ottobre, un intervento intitolato “LLM Salting: From Rainbow Tables to Jailbreaks”, dedicato a un meccanismo di difesa leggero contro i jailbreak dei modelli linguistici di grandi dimensioni (LLM).

Modelli come GPT, Claude, Gemini e LLaMA vengono sempre più spesso distribuiti con personalizzazioni minime. Questo ampio riutilizzo porta a un’omogeneità dei modelli tra le applicazioni – dai chatbot agli strumenti di produttività. Ciò può creare una vulnerabilità di sicurezza: i jailbreak prompt che aggirano i meccanismi di rifiuto (barriere che impediscono al modello di fornire determinati tipi di risposte) possono essere precomputati una volta e riutilizzati in molte implementazioni. È un fenomeno simile al classico attacco con rainbow table nella sicurezza delle password, in cui input precomputati vengono applicati a più obiettivi.

Questi jailbreak generalizzati rappresentano un problema perché molte aziende utilizzano LLM rivolti ai clienti costruiti su determinate classi di modelli – il che significa che un singolo jailbreak potrebbe funzionare su tutte le istanze basate su quel modello. E, naturalmente, tali jailbreak possono avere diversi effetti indesiderati – dall’esposizione di dati interni sensibili alla generazione di risposte errate, inappropriate o persino dannose.

Ispirandosi al mondo della crittografia, Tamás e il suo team hanno sviluppato una nuova tecnica chiamata “LLM salting”, un metodo di fine-tuning leggero che interrompe il riutilizzo dei jailbreak.

Basandosi su studi recenti che mostrano come il comportamento di rifiuto sia governato da una singola direzione nello spazio delle attivazioni, il LLM salting applica una piccola rotazione mirata a questa “direzione di rifiuto”. Ciò preserva le capacità generali del modello, ma invalida i jailbreak precomputati, costringendo gli aggressori a ricalcolare gli attacchi per ogni copia “salata” del modello.

Negli esperimenti condotti, Tamás e il suo team hanno scoperto che il LLM salting era significativamente più efficace nel ridurre il successo dei jailbreak rispetto al fine-tuning standard e alle modifiche del system prompt – rendendo così le implementazioni più robuste contro gli attacchi, senza sacrificare l’accuratezza.

Nel suo intervento, Tamás condividerà i risultati delle sue ricerche e la metodologia degli esperimenti, evidenziando come il LLM salting possa aiutare a proteggere aziende, proprietari di modelli e utenti dalle tecniche di jailbreak generalizzate.

Pubblicheremo un articolo più dettagliato su questo nuovo meccanismo di difesa dopo la presentazione al CAMLIS.