En los últimos meses y años, se ha producido una ola de integración de la IA en múltiples sectores, impulsada por las nuevas tecnologías y el entusiasmo global. Hay copilotos, modelos de resumen, asistentes de código y chatbots en todos los niveles de una organización, desde ingeniería hasta recursos humanos. El impacto de estos modelos no es solo profesional, sino también personal: mejoran nuestra capacidad para escribir código, localizar información, resumir textos densos y generar nuevas ideas.
Todo esto puede parecer muy reciente, pero la IA lleva muchos años formando parte del tejido de la ciberseguridad. Sin embargo, aún hay margen de mejora. En nuestro sector, por ejemplo, los modelos se suelen implementar a gran escala, procesando miles de millones de eventos al día. Los modelos de lenguaje grandes (LLM), que suelen acaparar los titulares, funcionan bien y son muy populares, pero no son adecuados para este tipo de aplicaciones.
Alojar un LLM para procesar miles de millones de eventos requiere una amplia infraestructura de GPU y una cantidad significativa de memoria, incluso después de aplicar técnicas de optimización como kernels especializados o la partición de la caché de valores clave con tablas de búsqueda. El coste y el mantenimiento asociados son inviables para muchas empresas, especialmente en escenarios de implementación, como firewalls o clasificación de documentos, en los que un modelo tiene que ejecutarse en un endpoint del cliente.
Dado que las exigencias computacionales que supone el mantenimiento de los LLM los hacen poco prácticos para muchas aplicaciones de ciberseguridad, especialmente aquellas que requieren un procesamiento en tiempo real o a gran escala, los modelos pequeños y eficientes pueden desempeñar un papel fundamental.
Muchas tareas de ciberseguridad no requieren soluciones generativas y pueden resolverse mediante la clasificación con modelos pequeños, que son rentables y pueden ejecutarse en dispositivos endpoint o dentro de una infraestructura en la nube. Incluso aspectos de los copilotos de seguridad, a menudo considerados el caso de uso prototípico de la IA generativa en ciberseguridad, pueden desglosarse en tareas que se resuelven mediante la clasificación, como la clasificación y priorización de alertas. Los modelos pequeños también pueden abordar otros retos de ciberseguridad, como la detección de binarios maliciosos, la clasificación de líneas de comando, la clasificación de URL, la detección de HTML malicioso, la clasificación de correos electrónicos y la clasificación de documentos, entre otros.
Una cuestión clave en lo que respecta a los modelos pequeños es su rendimiento, que está limitado por la calidad y la escala de los datos de entrenamiento. Como proveedor de ciberseguridad, disponemos de una gran cantidad de datos, pero siempre surge la pregunta de cómo utilizarlos de la mejor manera posible. Tradicionalmente, un enfoque para extraer señales valiosas de los datos ha sido el «bucle de retroalimentación entre la IA y los analistas». En un SOC asistido por IA, los modelos se mejoran integrando las clasificaciones y recomendaciones de los analistas sobre las predicciones de los modelos. Sin embargo, este enfoque está limitado en cuanto a su escala por el esfuerzo manual.
Aquí es donde los LLM tienen un papel que desempeñar. La idea es simple pero transformadora: utilizar modelos grandes de forma intermitente y estratégica para entrenar modelos pequeños de forma más eficaz. Los LLM son la herramienta más eficaz para extraer señales útiles de los datos a gran escala, modificar las etiquetas existentes, proporcionar nuevas etiquetas y crear datos que complementen la distribución actual.
Al aprovechar las capacidades de los LLM durante el proceso de entrenamiento de modelos más pequeños, podemos mejorar significativamente su rendimiento. La fusión de las capacidades de aprendizaje avanzadas de los modelos grandes y costosos con la alta eficiencia de los modelos pequeños puede crear soluciones rápidas, comercialmente viables y eficaces.
Tres métodos, que exploraremos en profundidad en este artículo, son clave para este enfoque: destilación de conocimiento, aprendizaje semisupervisado y generación de datos sintéticos.
-
En la destilación de conocimiento, el modelo grande enseña al modelo pequeño transfiriéndole el conocimiento aprendido, lo que mejora el rendimiento del modelo pequeño sin la sobrecarga que supone una implementación a gran escala. Este enfoque también es útil en ámbitos con ruido de etiquetas no desdeñable que no se pueden reetiquetar manualmente
-
El aprendizaje semisupervisado permite a los modelos grandes etiquetar datos que antes no estaban etiquetados, creando conjuntos de datos más ricos para entrenar modelos pequeños
-
La generación de datos sintéticos implica que los modelos grandes producen nuevos ejemplos sintéticos que luego se pueden utilizar para entrenar modelos pequeños de forma más robusta.
Destilación del conocimiento
La famosa «lección amarga» del aprendizaje automático, según Richard Sutton, afirma que «los métodos que aprovechan el cálculo son, en última instancia, los más eficaces». Los modelos mejoran con más recursos computacionales y más datos. Ampliar un conjunto de datos de alta calidad no es tarea fácil, ya que los analistas expertos solo disponen de un tiempo limitado para etiquetar manualmente los eventos. En consecuencia, los conjuntos de datos se etiquetan a menudo utilizando una variedad de señales, algunas de las cuales pueden ser ruidosas.
Cuando se entrena un modelo para clasificar un objeto, las etiquetas proporcionadas durante el entrenamiento suelen ser categóricas: 0 o 1, benigno o malicioso. En la destilación del conocimiento, se entrena un modelo estudiante con una combinación de etiquetas categóricas y la distribución de resultados de un modelo maestro. Este enfoque permite que un modelo más pequeño y barato aprenda y copie el comportamiento de un modelo maestro más grande y mejor entrenado, incluso en presencia de etiquetas ruidosas.
A menudo, se entrena previamente un modelo grande de forma independiente de las etiquetas y se le pide que prediga la siguiente parte de una secuencia o partes enmascaradas de una secuencia utilizando el contexto disponible. Esto inculca un conocimiento general del lenguaje o la sintaxis, tras lo cual solo se necesita una pequeña cantidad de datos de alta calidad para alinear el modelo entrenado previamente con una tarea determinada. Un modelo grande entrenado con datos etiquetados por analistas expertos puede enseñar a un modelo pequeño utilizando grandes cantidades de datos que pueden ser ruidosos.
Nuestra investigación sobre los modelos de clasificación de líneas de comando (que presentamos en la Conferencia sobre Aprendizaje Automático Aplicado a la Seguridad de la Información (CAMLIS) en octubre de 2024) corrobora este enfoque. Los binarios «Living-off-the-land», o LOLBins, utilizan binarios generalmente benignos en el sistema operativo de la víctima para enmascarar comportamientos maliciosos. Utilizando la distribución de salida de un modelo maestro grande, entrenamos un modelo alumno pequeño en un gran conjunto de datos, etiquetado originalmente con señales ruidosas, para clasificar los comandos como eventos benignos o ataques LOLBins. Comparamos el modelo alumno con el modelo de producción actual, que se muestra en la figura 1. Los resultados fueron inequívocos. El nuevo modelo superó al modelo de producción por un margen significativo, como lo demuestra la reducción de falsos positivos y el aumento de verdaderos positivos durante un período de supervisión. Este enfoque no solo fortaleció nuestros modelos existentes, sino que lo hizo de manera rentable, lo que demuestra el uso de modelos grandes durante el entrenamiento para escalar el etiquetado de un gran conjunto de datos.

Aprendizaje semisupervisado
En el sector de la seguridad, se generan grandes cantidades de datos a partir de la telemetría de los clientes que no pueden etiquetarse eficazmente mediante firmas, agrupación, revisión manual u otros métodos de etiquetado. Al igual que en la sección anterior con datos etiquetados con ruido, tampoco es factible anotar manualmente los datos sin etiquetar a la escala necesaria para mejorar el modelo. Sin embargo, los datos de telemetría contienen información útil que refleja la distribución que experimentará el modelo una vez implementado, por lo que no deben descartarse.
El aprendizaje semisupervisado aprovecha tanto los datos etiquetados como los no etiquetados para mejorar el rendimiento del modelo. En nuestro paradigma de modelos grandes/pequeños, lo implementamos entrenando o ajustando inicialmente un modelo grande en el conjunto de datos etiquetados original. A continuación, este modelo grande se utiliza para generar etiquetas para los datos no etiquetados. Si los recursos y el tiempo lo permiten, este proceso puede repetirse de forma iterativa volviendo a entrenar el modelo grande con los datos recién etiquetados y actualizando las etiquetas con las predicciones del modelo mejorado. Una vez finalizado el proceso iterativo, ya sea por restricciones presupuestarias o por la estabilización del rendimiento del modelo grande, el conjunto de datos final, ahora complementado con las etiquetas del modelo grande, se utiliza para entrenar un modelo pequeño y eficiente.
Hemos logrado un rendimiento cercano al LLM con nuestro modelo de clasificación de la productividad de sitios web pequeños mediante el empleo de esta técnica de aprendizaje semisupervisado. Ajustamos un LLM (T5 Large) en URL etiquetadas por firmas y lo utilizamos para predecir la categoría de productividad de sitios web sin etiquetar. Dado un número fijo de muestras de entrenamiento, probamos el rendimiento de modelos pequeños entrenados con diferentes composiciones de datos, inicialmente solo con datos etiquetados por firmas y luego aumentando la proporción de datos originalmente sin etiquetar que posteriormente fueron etiquetados por el LLM entrenado. Probamos los modelos en sitios web cuyos dominios no estaban presentes en el conjunto de entrenamiento. En la figura 2, podemos ver que, a medida que utilizamos más muestras sin etiquetar, el rendimiento de las redes pequeñas (la más pequeña de las cuales, eXpose, tiene algo más de 3 000 000 de parámetros, aproximadamente 238 veces menos que el LLM) se acercó al rendimiento de la configuración de LLM con mejor rendimiento. Esto demuestra que el modelo pequeño recibió señales útiles de los datos sin etiquetar durante el entrenamiento, que se asemejan a la larga cola de Internet que se observa durante la implementación. Esta forma de aprendizaje semisupervisado es una técnica especialmente potente en ciberseguridad debido a la gran cantidad de datos sin etiquetar procedentes de la telemetría. Los modelos grandes nos permiten desbloquear datos que antes eran inutilizables y alcanzar nuevas cotas con modelos rentables.

Generación de datos sintéticos
Hasta ahora, hemos considerado casos en los que utilizamos fuentes de datos existentes, etiquetadas o sin etiquetar, para ampliar los datos de entrenamiento y, por lo tanto, el rendimiento de nuestros modelos. La telemetría de los clientes no es exhaustiva y no refleja todas las distribuciones posibles que pueden existir. La recopilación de datos fuera de la distribución es inviable cuando se realiza manualmente. Durante su preentrenamiento, los LLM se exponen a enormes cantidades (del orden de billones de tokens) de conocimientos registrados y disponibles públicamente. Según la bibliografía, este preentrenamiento tiene un gran impacto en los conocimientos que retiene un LLM. El LLM puede generar datos similares a los que se expuso durante su preentrenamiento. Al proporcionar al LLM una semilla o un artefacto de ejemplo de nuestras fuentes de datos actuales, podemos generar nuevos datos sintéticos.
En trabajos anteriores, hemos demostrado que, partiendo de una sencilla plantilla de comercio electrónico, los agentes coordinados por GPT-4 pueden generar todos los aspectos de una campaña fraudulenta, desde el HTML hasta la publicidad, y que dicha campaña puede ampliarse a un número arbitrario de tiendas de comercio electrónico falsas. Cada tienda incluye una página de destino que muestra un catálogo de productos único, una página de inicio de sesión falsa de Facebook para robar las credenciales de inicio de sesión de los usuarios y una página de pago falsa para robar los datos de las tarjetas de crédito. En la figura 3 se muestra un ejemplo de la página de inicio de sesión falsa de Facebook. Se generaron tiendas para los siguientes productos: joyas, té, cortinas, perfumes, gafas de sol, cojines y bolsos.

Evaluamos el HTML de la página de inicio de sesión falsa de Facebook para cada tienda utilizando un modelo de clasificación binaria de producción. A partir de los tokens de entrada extraídos del HTML con una expresión regular, la red neuronal consta de componentes maestros e inspectores que permiten examinar el contenido a escalas espaciales jerárquicas. El modelo de producción calificó con seguridad cada página de inicio de sesión falsa de Facebook como benigna. Los resultados del modelo se muestran en la tabla 1. Las puntuaciones bajas indican que el HTML generado por GPT-4 se encuentra fuera de la distribución de entrenamiento del modelo de producción.
Creamos dos nuevos conjuntos de entrenamiento con HTML sintético de las tiendas. El conjunto V1 reserva las tiendas de «cojines» y «bolsos» para el conjunto de reserva, y todas las demás tiendas se utilizan en el conjunto de entrenamiento. El conjunto V2 utiliza la tienda de «joyas» para el conjunto de entrenamiento, y todas las demás tiendas se utilizan en el conjunto de reserva. Para cada nuevo conjunto de entrenamiento, entrenamos el modelo de producción hasta que todas las muestras del conjunto de entrenamiento se clasificaron como maliciosas. La tabla 1 muestra las puntuaciones del modelo en los datos de reserva después del entrenamiento en los conjuntos V1 y V2.
| Modelos | |||
| Escaparates de phishing | Producción | V1 | V2 |
| Joyas | 0.0003 | – | – |
| Té | 0.0003 | – | 0.8164 |
| Cortinas | 0.0003 | – | 0.8164 |
| Perfumes | 0.0003 | – | 0.8164 |
| Gafas de sol | 0.0003 | – | 0.8164 |
| Cojín | 0.0003 | 0.8244 | 0.8164 |
| Bolsa | 0.0003 | 0.5100 | 0.5001 |
Tabla 1: puntuaciones del modelo de clasificación binaria HTML en páginas de inicio de sesión falsas de Facebook con HTML generado por GPT-4. Los sitios web utilizados en los conjuntos de entrenamiento no se puntúan para los datos V1/V2
Para garantizar que el entrenamiento continuo no comprometa el comportamiento del modelo de producción, evaluamos el rendimiento en un conjunto de pruebas adicional. Utilizando nuestra telemetría, recopilamos todas las muestras HTML con una etiqueta del mes de junio de 2024. El conjunto de pruebas de junio incluye 2 927 719 muestras, de las cuales 1 179 562 son maliciosas y 1 748 157 son benignas. La tabla 2 muestra el rendimiento del modelo de producción y de ambos experimentos con conjuntos de entrenamiento. El entrenamiento continuo mejora el rendimiento general del modelo en la telemetría real.
| Modelos | |||
| Métrica | Producción | V1 | V2 |
| Precisión | 0.9770 | 0.9787 | 0.9787 |
| AUC | 0.9947 | 0.9949 | 0.9949 |
| Puntuación F1 media macro | 0.9759 | 0.9777 | 0.9776 |
Tabla 2: rendimiento de los modelos entrenados con datos sintéticos en comparación con el modelo de producción en datos HTML reales no utilizados.
Reflexiones finales
La convergencia de modelos grandes y pequeños abre nuevas vías de investigación, lo que nos permite revisar modelos obsoletos, utilizar fuentes de datos sin etiquetar a las que antes no se podía acceder e innovar en el ámbito de los modelos de ciberseguridad pequeños y rentables.
La integración de los LLM en los procesos de entrenamiento de modelos más pequeños presenta un enfoque comercialmente viable y estratégicamente sólido, ya que aumenta las capacidades de los modelos pequeños sin necesidad de desplegar a gran escala LLM que requieren un gran esfuerzo computacional.
Aunque los LLM han dominado el discurso reciente sobre la IA y la ciberseguridad, su potencial más prometedor reside en el aprovechamiento de sus capacidades para reforzar el rendimiento de los modelos pequeños y eficientes que constituyen la columna vertebral de las operaciones de ciberseguridad.
Mediante la adopción de técnicas como la destilación de conocimientos, el aprendizaje semisupervisado y la generación de datos sintéticos, podemos seguir innovando y mejorando los usos fundamentales de la IA en la ciberseguridad, garantizando que los sistemas sigan siendo resistentes, robustos y estén a la vanguardia en un panorama de amenazas en constante evolución. Este cambio de paradigma no solo maximiza la utilidad de la infraestructura de IA existente, sino que también democratiza las capacidades avanzadas de ciberseguridad, haciéndolas accesibles a empresas de todos los tamaños.