Site icon Sophos News

El sexto sentido de la ciberseguridad: la IA multimodal

En la conferencia Virus Bulletin de 2024, el Principal Data Scientist de Sophos, Younghoo Lee, presentó un artículo sobre la investigación de SophosAI sobre la IA multimodal (un sistema que integra diversos tipos de datos en un marco analítico unificado). En su charla, Lee exploró la novedosa investigación empírica del equipo sobre la aplicación de la IA multimodal a la detección de spam, phishing y contenido web no seguro.

¿Qué es la IA multimodal?

La IA multimodal representa un cambio significativo en la inteligencia artificial. En lugar del análisis tradicional de un solo modo, los sistemas multimodales pueden procesar múltiples flujos de datos simultáneamente, sintetizando datos de múltiples entradas.

En el contexto de la ciberseguridad, y en particular cuando se trata de clasificar amenazas, esta es una capacidad poderosa. En lugar de analizar el contenido textual y visual por separado, un sistema multimodal puede procesar ambos y «entender» las intrincadas relaciones entre ellos.

Por ejemplo, en la detección de phishing, la IA multimodal examina los patrones lingüísticos y el estilo de escritura del texto junto con la fidelidad visual de los logotipos y los elementos de marca, al tiempo que analiza la coherencia semántica entre los componentes textuales y visuales. Este enfoque holístico significa que el sistema puede identificar ataques sofisticados que podrían parecer, a sistemas más tradicionales, legítimos. Además, la IA multimodal puede aprender de las correlaciones entre diferentes tipos de datos y adaptarse a ellas, desarrollando un sentido de cómo el contenido legítimo y malicioso difiere en múltiples dimensiones.

Capacidades

En su investigación, Lee detalla algunas de las capacidades de detección de los sistemas de IA multimodal:

Análisis de texto y comprensión del lenguaje natural

Inteligencia visual y verificación de marca

Análisis avanzado de URL y seguridad

Caso práctico: un correo electrónico falso de Costco

La siguiente imagen es un intento de phishing real, diseñado para engañar a los destinatarios haciéndoles creer que han ganado un premio de Costco. El correo electrónico parece oficial, imitando el logotipo y la marca de Costco.

Figura 1: captura de pantalla de un correo electrónico de phishing, supuestamente de Costco

La IA multimodal puede identificar varios aspectos sospechosos de este correo electrónico, entre ellos:

Como resultado, el sistema asigna una puntuación alta al correo electrónico, marcándolo como sospechoso.

SophosAI también aplicó IA multimodal a sitios web NSFW (not safe for work) que contienen contenido relacionado con juegos de azar, armas y más. Al igual que con la clasificación de correos electrónicos de phishing, la detección aprovecha una serie de capacidades, incluida la evaluación de palabras clave y frases (independientemente del idioma) y el análisis de imágenes y gráficos.

Resultados experimentales

Para probar la eficacia de la IA multimodal en comparación con los modelos tradicionales de aprendizaje automático como Random Forest y XGBoost, SophosAI llevó a cabo una serie de experimentos empíricos. Los resultados completos están disponibles en el informe técnico de Lee y en la charla de Virus Bulletin, pero, en resumen, los modelos tradicionales funcionaron bien a la hora de detectar amenazas conocidas, sin embargo tuvieron dificultades con correos electrónicos de phishing nuevos y desconocidos. Sus puntuaciones F1 (una medida que equilibra la precisión y el recuerdo para dar una representación general de la exactitud entre 0 y 1) fueron tan bajas como 0,53 con muestras no vistas, alcanzando un máximo de 0,66. Por el contrario, la IA multimodal (utilizando GPT-4o) funcionó muy bien en la detección de nuevos intentos de phishing, logrando puntuaciones F1 de hasta 0,97 incluso en marcas no vistas.

Sucedió algo similar con el contenido NSFW. Los modelos tradicionales lograron puntuaciones F1 de alrededor de 0,84-0,88, pero los modelos con incrustaciones de IA multimodal lograron puntuaciones de hasta 0,96.

Conclusión

El panorama digital está en constante evolución, lo que conlleva una serie de nuevas amenazas, como el uso de IA generativa para engañar a los usuarios. Los correos electrónicos de phishing ahora imitan meticulosamente y de forma rutinaria las comunicaciones legítimas, mientras que los sitios web NSFW ocultan contenido dañino detrás de imágenes engañosas. Si bien los métodos tradicionales de ciberseguridad siguen siendo importantes, cada vez son más inadecuados por sí solos. La IA multimodal ofrece una innovadora capa de defensa que mejora nuestra comprensión del contenido.

Al detectar eficazmente correos electrónicos de phishing sofisticados y clasificar con precisión los sitios web NSFW, la IA multimodal no solo protege a los usuarios de forma más eficaz, sino que también se adapta a las nuevas amenazas. Los resultados experimentales que Lee presenta en su artículo muestran mejoras significativas con respecto a los métodos tradicionales.

De cara al futuro, la incorporación de la IA multimodal en las estrategias de ciberseguridad no solo es beneficiosa, sino que es crucial para garantizar la protección de nuestro entorno digital en medio de complejidades y amenazas crecientes.

Para más información, el informe técnico completo de Lee está disponible aquí. Una grabación de su charla en Virus Bulletin 2024 está disponible aquí (junto con las diapositivas de la presentación).

Exit mobile version