Nueva técnica para evitar jailbreaks de LLM

Muchas organizaciones están implementando cada vez más modelos de lenguaje grandes (LLM), como la serie GPT de OpenAI, Claude de Anthropic, LLaMA de Meta y varios modelos de DeepSeek, con una personalización mínima. Esta reutilización generalizada conduce a la homogeneidad de los modelos en todas las aplicaciones, desde los chatbots hasta las herramientas de productividad, y crea una vulnerabilidad de seguridad: las solicitudes de jailbreak que eluden los mecanismos de rechazo pueden precalcularse una vez y reutilizarse en muchas implementaciones. Esto refleja el clásico ataque de tabla arcoíris en la seguridad de las contraseñas, en el que los atacantes explotan objetivos criptográficos compartidos para reutilizar entradas precalculadas.

Estos jailbreaks generalizados son un problema porque muchas empresas tienen LLM orientados al cliente basados en clases de modelos, lo que significa que un jailbreak podría funcionar contra todas las instancias basadas en un modelo determinado. Y, por supuesto, esos jailbreaks podrían tener múltiples efectos indeseables, desde la exposición de datos internos confidenciales hasta la producción de respuestas incorrectas, inapropiadas o incluso perjudiciales.

Inspirándonos en el salado (salting) de contraseñas, el concepto de introducir pequeñas variaciones por usuario para romper la reutilización de entradas precalculadas, desarrollamos una técnica que llamamos «salado de LLM»: introducir variaciones específicas en el comportamiento del modelo para invalidar las fugas. Recientemente, presentamos esta técnica en la Conferencia de 2025 sobre Aprendizaje Automático Aplicado a la Seguridad de la Información (CAMLIS), y este artículo explora nuestra investigación en profundidad.

Negarse a pasar la sal

Basándonos en un trabajo reciente de Arditi et al que identifica un subespacio en las activaciones del modelo responsable del comportamiento de rechazo, hemos desarrollado un procedimiento de ajuste fino ligero que rota este subespacio. Este sencillo cambio garantiza que los jailbreaks creados contra un modelo sin sal ya no tengan éxito en los modelos con sal.

El análisis de las representaciones internas revela que la dirección de rechazo se mantiene en gran medida estable con el ajuste fino estándar. Como se muestra en la Figura 1, la similitud coseno entre las activaciones residuales del modelo y una dirección de rechazo precalculada en la capa 16 se mantiene constantemente alta durante todo el entrenamiento, a menos que se modifique explícitamente. Esto indica que los procedimientos de alineación que no se dirigen directamente a los mecanismos de rechazo probablemente no perturben las características latentes explotadas por los ataques de jailbreak.

Figura 1: similitud coseno entre las activaciones internas del modelo y la dirección de rechazo precalculada en la capa 16 durante el entrenamiento. Con el ajuste fino estándar (blanco), la dirección de rechazo permanece prácticamente sin cambios. Por el contrario, el ajuste fino salado (naranja) gira explícitamente la representación alejándola del eje de rechazo. Esto indica que los métodos de alineación estándar no alteran las direcciones relevantes para el rechazo a menos que se incentive explícitamente.

Por el contrario, el salado de LLM introduce una perturbación específica que gira esta dirección, reduciendo así la eficacia de los ataques que antes tenían éxito sin afectar negativamente al comportamiento general del modelo.

Evaluamos el salado LLM frente al ataque de jailbreak Greedy Coordinate Gradient (GCG). Los experimentos con LLaMA2-7B-Chat y Vicuna-7B demostraron que el salado rompe sistemáticamente la transferibilidad dentro del modelo, al tiempo que preserva el rendimiento del modelo en prompts benignos.

Es importante destacar que el salado LLM se puede utilizar junto con métodos de protección existentes, como el filtrado de indicaciones y los rechazos basados en clasificadores. En línea con las mejores prácticas de seguridad estándar, recomendamos una estrategia de defensa por capas, que combine el salado con otras medidas de protección para mejorar la robustez frente a los ataques de jailbreak.

Nuestros experimentos

Datos de entrenamiento

Construimos el conjunto de datos de entrenamiento para el ajuste fino mezclando ejemplos de dos fuentes. El 90 % de los datos se extrae del conjunto de datos trl-internal-testing/hh-rlhf-helpful-base-trl-style de Hugging Face, que contiene instrucciones útiles e inofensivas. El 10 % restante procede de AdvBench, un punto de referencia de indicaciones perjudiciales diseñado para provocar rechazos en modelos alineados. Esta mezcla garantiza que, durante el ajuste, el modelo se exponga tanto a indicaciones que requieren respuestas útiles como a indicaciones que requieren rechazo, reforzando el comportamiento deseado en cada caso.

Datos de evaluación

Para evaluar la transferibilidad del jailbreak, utilizamos instrucciones dañinas y prompts adversarios de AdvBench, centrándonos en GCG, un ataque basado en sufijos que añade tokens adversarios a los prompts de los usuarios. Evaluamos 300 jailbreaks GCG por modelo, centrándonos en dos modelos de chat de código abierto ampliamente adoptados: LLaMA-2-7B-Chat y Vicuna-7B.

Extracción de la dirección de rechazo

Siguiendo a Arditi et al., extraemos una dirección r en el espacio de activación que media las negativas del modelo. Adoptamos su enfoque de diferencia de medias, comparando las activaciones residuales tras instrucciones dañinas e inofensivas. Sea t ∈ D un token de entrenamiento con etiqueta y_t y activación residual x^(l)(t) en la capa l. Dividimos el conjunto de datos en Dharmful y Dharmless dependiendo de si la indicación tiene por objeto desencadenar una negativa. Para cada capa transformadora l y posición de token posterior a la instrucción i, calculamos, según Arditi et al:

Cada candidato r^(l)i representa la diferencia en las activaciones medias entre las indicaciones dañinas e inofensivas. Evaluamos todos los candidatos en un conjunto de validación retenido utilizando el procedimiento de sondeo causal de Arditi et al y seleccionamos la posición más eficaz para r∗.

Salado mediante modificación de la pérdida

Implementamos el salado de LLM modificando la pérdida de entrenamiento para reducir la alineación con la dirección de rechazo r∗ en las indicaciones perjudiciales.

La pérdida total se define como:

La función de pérdida comprende dos componentes. El primero es el término de entropía cruzada estándar, que anima al modelo a generar resultados coherentes y contextualmente apropiados. También refuerza el comportamiento de rechazo cuando es necesario; por ejemplo, si el modelo se negó anteriormente a responder a una indicación perjudicial, debe seguir haciéndolo.

El segundo término introduce el objetivo de salado. Penaliza la alineación entre las activaciones internas del modelo y la dirección de rechazo precalculada r∗ en las indicaciones perjudiciales, lo que anima al modelo a «rechazar de forma diferente» y perturba los patrones de activación explotados por los jailbreaks.

Para centrar esta intervención donde es más eficaz, aplicamos la pérdida de salado solo en las capas con la mayor similitud coseno con r∗ durante las negativas, siguiendo el enfoque de Arditi et al. En nuestros experimentos con LLaMA-2-7B-Chat y Vicuna-7B, utilizamos L = {16, 17, 18, 19, 20}.

Resultados

Iniciamos nuestra evaluación con 300 indicaciones de jailbreak GCG que alcanzan una tasa de éxito de ataque (ASR) del 100 % en los modelos de referencia no modificados. A continuación, evaluamos si estos ataques siguen siendo eficaces bajo una serie de defensas y si nuestro método de salado propuesto puede eliminar el subconjunto de jailbreaks que persisten.

Las figuras 2 y 3 muestran la ASR (eje izquierdo) y la precisión de Massive Multitask Language Understanding (MMLU) (eje derecho) para cuatro variantes del modelo:

El modelo original sin ajuste fino (sin FT).
Un modelo estándar ajustado finamente entrenado con nuestro conjunto de datos de alineación (FT estándar).
Un modelo con una solicitud del sistema modificada (varias) (cambio de solicitud del sistema).
Un modelo ajustado con nuestra pérdida de salado basada en coseno (Salting)

Figura 2: LLaMA2-7B: ASR de jailbreaks GCG y precisión MMLU en diferentes defensas. El salado reduce el ASR al 3 % mientras conserva el rendimiento

A bar chart showing jailbreak ASR vs MMLU accuracy for Vicuna-7b, as described in caption — Figura 3: Vicuna-7B: ASR de jailbreaks GCG y precisión MMLU en diferentes defensas. El salado reduce el ASR al 1 % y mantiene el rendimiento

Robustez frente a jailbreaks

En el caso de LLaMA-2-7B (Figura 2), observamos que el ajuste fino estándar y los cambios en las indicaciones del sistema reducen el ASR solo parcialmente, hasta aproximadamente un 40-60 %. Por el contrario, el salado reduce el ASR del 100 % a solo un 2,75 %.

Se observa una tendencia similar en Vicuna-7B (Figura 3), donde el ASR cae del 100 % al 1,35 % con el salado. Estos resultados demuestran que nuestro enfoque elimina eficazmente el subconjunto de jailbreaks que siguen siendo robustos con las defensas tradicionales, superando tanto a las estrategias basadas en parámetros como a las basadas en indicaciones.

Preservación de la capacidad

Para garantizar que esta solidez no se consigue a costa de la utilidad del modelo, evaluamos las capacidades generales con el benchmark MMLU utilizando lm-evaluation-harness. Tanto para LLaMA-2-7B (46,8 %) como para Vicuna-7B (49,2 %), los modelos salados alcanzan precisiones MMLU que son estadísticamente indistinguibles de sus homólogos no salados: las diferencias están muy por debajo del ruido típico de ejecución a ejecución y no muestran ninguna deriva sistemática. Esto indica que las ganancias de rechazo que proporciona el salado no comprometen la utilidad ni el rendimiento general de las tareas.

Introspección del modelo

Para comprender cómo el salado interrumpe la transferibilidad del jailbreak, examinamos la similitud coseno entre las activaciones residuales y la dirección de rechazo precalculada en todas las capas, tal y como hicieron Arditi et al. En el modelo original, las indicaciones dañinas e inofensivas muestran una clara separación en su alineación con la dirección de rechazo: las entradas dañinas mantienen una alta similitud coseno positiva, mientras que las indicaciones inofensivas se alinean negativamente.

Cuando se aplica GCG a una sugerencia dañina, la similitud de activación resultante se desplaza hacia abajo, pareciéndose cada vez más a la de las entradas inofensivas.

A line graph showing cosine similarity between input activations and precomputed refusal direction in the original model. Y axis = cosine similarity, X axis = layer. As described in caption — Figura 4: Similitud coseno entre las activaciones de entrada y la dirección de rechazo precalculada en todas las capas del modelo original. Las entradas inofensivas y dañinas están inicialmente bien separadas, pero las sugerencias adversarias perturbadas por GCG (azul) se alinean cada vez más con las trayectorias dañinas (naranja) en las capas más profundas, revelando una convergencia hacia representaciones que desencadenan el rechazo

En el modelo salado (Figura 5), esta convergencia ya no se produce. Las indicaciones GCG permanecen alejadas de la trayectoria dañina y ya no desplazan las activaciones hacia regiones benignas. Nuestra hipótesis es que, dado que el salado invierte eficazmente la dirección de rechazo, la optimización original de GCG aumenta ahora la alineación con el vector girado, reforzando involuntariamente el comportamiento de rechazo.

A line graph showing cosine similarity between input activations and precomputed refusal direction in the salted model. Y axis = cosine similarity, X axis = layer. As described in caption — Figura 5: similitud coseno entre las activaciones de entrada y la dirección de rechazo en el modelo salado. El salado interrumpe el efecto adversario al rotar el espacio de activación: las indicaciones modificadas por GCG (azul) ya no se alinean con representaciones dañinas, preservando la separación del subespacio de rechazo

Conclusión y trabajo futuro

Presentamos el salado de LLM, una técnica de ajuste fino ligera que interrumpe la reutilización del jailbreak rotando las representaciones internas de rechazo. Esta técnica neutraliza casi por completo el éxito de los jailbreaks GCG precalculados tanto en LLaMA-2 como en Vicuna, al tiempo que preserva el rendimiento del modelo en entradas benignas.

El trabajo futuro podría explorar la aplicación del salado a modelos más grandes y evaluar su robustez frente a una gama más amplia de estrategias de jailbreak, como AutoDAN y TAP.

Nueva técnica para evitar jailbreaks de LLM

Negarse a pasar la sal