Búsqueda de Ciberamenazas

Cómo usar la IA para identificar a los cerebros del cibercrimen

Analizamos foros de la dark web para identificar a los principales expertos en cibercrimen

Los foros criminales en línea, tanto en la Internet pública como en la «web oscura» de los sitios Tor .onion, son una fuente muy valiosa para los investigadores de inteligencia sobre amenazas. Sophos Counter Threat Unit (CTU) cuenta con un equipo de investigadores de la web oscura que recopila información e interactúa con los foros de la web oscura, pero revisar todas estas publicaciones es una tarea que requiere mucho tiempo y recursos, y siempre existe la posibilidad de que se pase algo por alto.

En nuestro esfuerzo por hacer un mejor uso de la IA y el análisis de datos, el investigador de IA de Sophos Francois Labreche, en colaboración con Estelle Ruellan, de Flare y la Universidad de Montreal, y Masarah Paquet-Clouston, de la Universidad de Montreal, se propusieron averiguar si podían abordar el problema de identificar a los principales actores de la dark web de una forma más automatizada. Su trabajo, presentado originalmente en el Simposio APWG 2024 sobre Investigación del Crimen Electrónico, ha sido publicado recientemente como artículo.

El enfoque

El equipo de investigación combinó una modificación de un marco desarrollado por los criminólogos Martin Bouchard y Holly Nguyen para separar a los delincuentes profesionales de los aficionados en un análisis de la industria criminal del cannabis con un análisis de redes sociales. Con ello, pudieron conectar las cuentas que publicaban en foros con los exploits de las vulnerabilidades y exposiciones comunes (CVE) recientes, ya fuera basándose en el nombre de la CVE o haciendo coincidir la publicación con las enumeraciones y clasificaciones de patrones de ataque comunes (CAPEC) correspondientes a las CVE definidas por MITRE.

Utilizando el motor de búsqueda de amenazas Flare, recopilaron 11 558 publicaciones de 4441 personas entre enero de 2015 y julio de 2023 en 124 foros diferentes sobre delitos electrónicos. Las publicaciones mencionaban 6232 CVE diferentes. Los investigadores utilizaron los datos para crear una red social bimodal que conectaba las CAPEC con los actores individuales basándose en el contenido de las publicaciones de estos. En esta etapa inicial, centraron el conjunto de datos para eliminar, por ejemplo, los CVE que no tenían CAPEC asignados y los métodos de ataque demasiado generales que utilizan muchos actores maliciosos (y los autores de las publicaciones que solo hablaban de esos CVE de uso general). Este filtrado redujo finalmente el conjunto de datos a 2321 actores y 263 CAPEC.

A continuación, el equipo de investigación utilizó el algoritmo de detección de comunidades de Leiden para agrupar a los actores en comunidades («comunidades de interés») con un interés común en patrones de ataque concretos. En esta fase, destacaron ocho comunidades relativamente diferenciadas. De media, cada actor estaba conectado a 13 CAPEC diferentes, mientras que los CAPEC estaban vinculados a 118 actores.

A chart showing groupings actors in threat networks, color-coded by communities of interest

Color key for Figure 1a, above
Figura 1: redes bimodales de actores y CAPEC, coloreadas según las comunidades de interés; los CAPEC se muestran en rojo para mayor claridad

 

Identificación de los actores clave

A continuación, se identificaron los actores clave en función de la experiencia que demostraban en cada comunidad. Se utilizaron tres factores para medir el nivel de experiencia:

1) Nivel de habilidad: se basó en la medición de la habilidad necesaria para utilizar un CAPEC, según la evaluación de MITRE:

«Bajo», «Medio» o «Alto», utilizando el nivel de habilidad más alto entre todos los escenarios relacionados con el patrón de ataque, para evitar subestimar las habilidades de los actores. Esto se hizo para cada CAPEC asociado al actor. Para establecer un nivel de habilidad representativo, los investigadores utilizaron el valor del percentil 70 de la lista de CAPEC de cada actor y sus niveles de habilidad asociados. Por ejemplo, si John Doe discutió 8 CVE que MITRE asigna a 10 CAPEC, 5 calificados como altos por MITRE, 4 calificados como medios y uno calificado como bajo, su nivel de habilidad representativo se consideraría alto. La elección de este valor percentil garantizó que solo los actores con más del 30 % de sus valores equivalentes a «alto» se clasificaran como realmente altamente cualificados.

DISTRIBUCIÓN GENERAL DE LOS VALORES DE LOS NIVELES DE HABILIDAD

Valor del nivel de habilidad  CAPEC % de los valores de los niveles de habilidad entre todos los valores de la lista de actores
Bajo 118 (44.87%) 57.71%
Medio 66 (25.09%) 24.14%
Alto 79 (30.04%) 18.14%

ESTADÍSTICAS DE LA PROPORCIÓN DE LOS VALORES DE LOS NIVELES DE HABILIDAD

Valor del nivel de habilidad

 Proporción media de miembros en la lista de actores

Mediana Percentil 75 Std
Alto 29.07% 23.08% 50.00% 30.76%
Medio 36.12% 30.77% 50.00% 32.41%
Bajo 33.74% 33.33% 66.66% 31.72%

Figura 2: desglose de las evaluaciones del nivel de habilidad de los actores analizados en la investigación

2) Nivel de compromiso: se cuantificó mediante la proporción de publicaciones «de interés» (publicaciones relacionadas con un conjunto de CAPEC basados en comunidades de interés similares) en relación con el total de publicaciones de un actor. Se descartaron los actores que tenían tres o menos publicaciones, lo que redujo el conjunto a evaluar a 359 actores.

3) Índice de actividad: los investigadores añadieron este elemento al marco de Bouchard/Nguyen para cuantificar el nivel de actividad de cada actor en los foros. Se midió dividiendo el número de publicaciones con un CVE y el CAPEC correspondiente por el número de días de actividad del actor en los foros pertinentes. El índice de actividad resulta ser inverso al nivel de habilidad con el que operan los actores maliciosos. Los actores más cualificados llevan mucho tiempo en los foros, por lo que su índice de actividad relativo es mucho menor, a pesar de tener un número significativo de publicaciones.

ESTADÍSTICAS DESCRIPTIVAS DE LA MUESTRA

Media Estándar Min Mediana Percentil 75 Max
Longitud de la lista de valores del nivel de habilidad 99.42 255.76 4 25 85 3449
Nivel de habilidad (valor del percentil 70) 2.19 0.64 1 2 3 3
Número de publicaciones (CVE con CAPEC) 14.55 31.37 4 6 10 375
% de compromiso 36.68 29.61 0 25 50 100
Tiempo de actividad (días) 449.07 545.02 1 227.00 690.00 2669.00
Índice de actividad 0.72 1.90 0.002 0.04 0.20 14.00

Figura 3: desglose de las puntuaciones de habilidad, compromiso y tasa de actividad del grupo de muestra

Como se muestra arriba, la muestra para la identificación de los actores clave estaba formada por 359 actores. El actor medio tenía un 36,68 % de las publicaciones comprometidas con su comunidad de interés y un nivel de habilidad de 2,19 («medio»). La tasa de actividad media era de 0,72.

RESUMEN DE LAS COMUNIDADES DE INTERÉS (COI)

Comunidad Comunidad de interés Nodos CAPEC Actores % de usuarios ocasionales Grado de salida medio por actor Estándar (grado de salida) Número medio de publicaciones especializadas  Estándar (publicaciones)
0 Escalada de privilegios 544 19 525 65.14 4 7.11 2 4.76
1 Basada en web 497 26 471 71.97 5 12.98 3 18.33
2 General / Diversa 431 103 328 56.10 14 33.15 7 24.89
3 XSS 319 10 309 71.52 2 1.18 1 1.46
4 Reconocimiento 298 55 243 51.44 61 9.04 3 6.99
5 Suplantación 296 25 271 54.61 12 7.88 3 5.49
6 Persistencia 116 22 94 41.49 26 25.76 5 7.96
7 OIVMM 83 3 80 85.00 1 0.31 1 1.62

Figura 4. puntuaciones relativas de los actores agrupados en cada comunidad de interés

14 agujas en un pajar

Por último, para identificar a los actores verdaderamente clave, aquellos con un nivel de habilidad, compromiso y tasa de actividad lo suficientemente altos como para identificarlos como expertos en sus ámbitos, los investigadores utilizaron el algoritmo de agrupamiento K-means. Utilizando las tres medidas creadas para la relación de cada actor con los CAPEC, los 359 actores se agruparon en ocho clústeres con niveles similares en las tres medidas.

Cluster chart showing distributions of accounts by activity rate, skill level, and perceived commitment

RESUMEN DE LOS CLÚSTERES

Cluster

Marco Bouchard & Nguyen *

Centroid [Habilidad, Compromiso, Actividad]

Número de actores

% de la población de la muestra

0 Aficionados [2.00; 22.47; 0.11] [Mid; Low; Discrete] 143 39.83
1 Aficionados avanzados [2.81; 97.62; 5.14] [High; High; Short-lived] 21 5.85
2 Profesionales [2.96; 90.37; 0.28] [High; High; Active] 14 3.90
3 Aficionados avanzados [2.96; 25.32; 0.12] [High; Low; Discrete] 86 23.96
4 Aficionados [1.05; 24.32; 0.05] [Low; Low; Discrete] 43 11.98
5 Delincuentes habituales [1.86; 84.81; 0.50] [Low; High; Active] 36 10.02
6 Aficionados avanzados [2.38; 18.46; 10.67] [Mid; Low; Hyperactive] 5 1.39
7 Aficionados [1.95; 24.51; 4.14] [Mid; Low; Hyperactive] 11 3.06

Figura 5: análisis de los ocho grupos con puntuación basada en la metodología del marco desarrollado a partir del trabajo de los criminólogos Martin Bouchard y Holly Nguyen; como se ha descrito anteriormente, se añadió la tasa de actividad como modificación de dicho marco. Cabe destacar el escaso número de actores verdaderamente profesionales, incluso entre el conjunto de datos de 359

Un grupo de 14 actores fue calificado como «Profesionales»: personas clave, las mejores en su campo, con un alto nivel de habilidad y compromiso y una tasa de actividad baja, debido nuevamente a la duración de su participación en los foros (una media de 159 días) y a una tasa de publicación de aproximadamente una publicación cada 3-4 días. Se centraban en comunidades de interés muy específicas y no publicaban mucho más allá de ellas, con un nivel de compromiso del 90,37 %. El enfoque analítico de esta investigación tiene limitaciones inherentes, principalmente debido a la dependencia del mapeo CAPEC y CVE de MITRE y a los niveles de habilidad asignados por MITRE.

Conclusión

El proceso de investigación incluye la definición de los problemas y el análisis de cómo diversos enfoques estructurados pueden conducir a una mayor comprensión. Los equipos de inteligencia sobre amenazas podrían utilizar derivados del enfoque descrito en esta investigación para desarrollar un enfoque menos sesgado para identificar a los cerebros de los delitos electrónicos, y Sophos CTU comenzará ahora a examinar los resultados de estos datos para ver si pueden configurar o mejorar nuestra investigación actual en este ámbito, dirigida por personas.