cybercriminalite
Recherche sur les menaces

Utiliser l’IA pour identifier les cerveaux pilotant la cybercriminalité

Analyser les forums du darkweb pour identifier les principaux experts en matière de cybercriminalité.

Les forums cybercriminels en ligne, tant sur l’Internet public que sur le “darkweb” et les sites Tor .onion, constituent une ressource précieuse pour les chercheurs en renseignement sur les menaces (Threat-Intelligence). La CTU (Counter Threat Unit) de Sophos dispose d’une équipe de chercheurs experts du darkweb qui collectent des renseignements et interagissent avec les forums darkweb, mais parcourir toutes ces publications est une tâche fastidieuse et gourmande en ressources, et il est toujours possible de passer à côté d’éléments importants.

Alors que nous nous efforçons de mieux utiliser l’IA et l’analyse des données, le chercheur en IA (Intelligence Artificielle) de Sophos, François Labreche, en collaboration avec Estelle Ruellan de Flare et de l’Université de Montréal et Masarah Paquet-Clouston de l’Université de Montréal, ont cherché à savoir s’ils pouvaient aborder le problème de l’identification des acteurs clés du darkweb de manière plus automatisée. Leurs travaux, initialement présentés lors du Symposium APWG 2024 sur l’ECR (Electronic Crime Research), ont récemment été publiés sous forme d’article.

L’approche

L’équipe de recherche a combiné un framework modifié et développé au départ par les criminologues Martin Bouchard et Holly Nguyen pour séparer les criminels professionnels des amateurs via une analyse de l’industrie criminelle du cannabis et en examinant des réseaux sociaux. Grâce à cette approche, ils ont pu connecter les comptes qui publiaient des informations sur les forums aux récentes CVE (Common Vulnerabilities and Exposures), soit en fonction du nom de la CVE, soit en mettant en parallèle la publication et les CAPEC (Common Attack Pattern Enumerations and Classifications) correspondants et définis par MITRE.

En utilisant le moteur de recherche de menaces Flare, ils ont rassemblé 11 558 messages de 4 441 personnes entre janvier 2015 et juillet 2023 sur 124 forums de cybercriminalité différents. Les publications mentionnaient 6 232 CVE différentes. Les chercheurs ont utilisé les données pour créer un réseau social bimodal qui connectait les CAPEC à des acteurs individuels en fonction du contenu des publications/posts de ces derniers. Dans cette phase initiale, ils ont concentré l’ensemble de données pour éliminer, par exemple, les CVE qui n’ont pas de CAPEC attribué et les méthodes d’attaque trop générales que de nombreux acteurs malveillants utilisent (ainsi que les personnes qui postaient et abordaient uniquement ces CVE généralistes). Un filtrage de ce type a finalement réduit l’ensemble de données à 2 321 acteurs et 263 CAPEC.

L’équipe de recherche a ensuite utilisé l’algorithme de détection de communauté de Leiden pour regrouper les acteurs en différentes communautés (“communautés d’intérêt “) ayant un intérêt commun pour des modèles d’attaque particuliers. À ce stade, huit communautés se sont distinguées comme étant relativement distinctes. En moyenne, les acteurs individuels étaient connectés à 13 CAPEC différents, tandis que les CAPEC étaient liés à 118 acteurs.

cybercriminalite

Figure 1 : Réseaux acteur-CAPEC bimodaux, colorés selon les communautés d’intérêt ; les CAPEC sont représentés en rouge pour plus de clarté.

Identifier les acteurs clés

Ensuite, les acteurs clés ont été identifiés en fonction de l’expertise dont ils avaient fait preuve dans chaque communauté. Trois facteurs ont été utilisés pour mesurer le niveau d’expertise :

1)  Niveau de compétence : celui-ci était basé sur la mesure des compétences requises pour utiliser un CAPEC, telle qu’évalué par MITRE : “Faible“, “Moyen” ou “Élevé“, en utilisant le niveau de compétence le plus élevé parmi tous les scénarios liés au modèle d’attaque, pour éviter de sous-estimer les compétences des acteurs. Cette démarche a été utilisée pour chaque CAPEC associé à l’acteur. Pour établir un niveau de compétence représentatif, les chercheurs ont utilisé la valeur du 70ème centile de la liste des CAPEC de chaque acteur et leurs niveaux de compétence associés (par exemple, si John Doe abordait 8 CVE que MITRE a associé à 10 CAPEC – 5 classés comme ‘élevés’ par MITRE, 4 classés comme ‘moyens’ et un classé comme ‘faible’ – son niveau de compétence représentatif serait considéré comme ‘élevé’). Le choix de cette valeur de centile garantissait que seuls les acteurs dont plus de 30% de leurs valeurs étaient équivalentes à “élevé” seraient classés comme réellement hautement qualifiés.

RÉPARTITION GLOBALE DES VALEURS DE NIVEAU DE COMPÉTENCE

Valeur du niveau de compétence  CAPEC % des valeurs de niveau de compétence parmi toutes les valeurs de la liste des acteurs
Faible 118( 44,87%) 57,71%
Moyen 66( 25,09%) 24,14%
Élevé 79( 30,04%) 18,14%

 

VALEURS DE NIVEAU DE COMPÉTENCE : RÉPARTITION STATISTIQUE

Valeur du niveau de compétence Proportion moyenne des membres dans la liste des acteurs Médiane 75ème centile Std
Élevé 29,07% 23,08% 50,00% 30,76%
Moyen 36,12% 30,77% 50,00% 32,41%
Faible 33,74% 33,33% 66,66% 31,72%

Figure 2 : Une répartition des évaluations du niveau de compétence des acteurs analysés dans la recherche

2)  Niveau d’engagement : ce niveau a été quantifié par la proportion de publications/posts “d’intérêt” (publications relatives à un ensemble de CAPEC connexes basés sur des communautés d’intérêt similaires) par rapport au total des publications d’un acteur. Les acteurs ayant trois posts ou moins ont été écartés, réduisant ainsi le nombre d’acteurs à évaluer à 359.

3)  Taux d’activité : les chercheurs ont ajouté cet élément au framework Bouchard/Nguyen pour quantifier le niveau d’activité de chaque acteur dans les forums. Elle a été mesurée en divisant le nombre de messages concernant un CVE et un CAPEC correspondant par le nombre de jours d’activité de l’acteur sur les forums concernés. En réalité, le taux d’activité s’avère être inversement proportionnel au niveau de compétence auquel opèrent les acteurs malveillants. Les acteurs les plus qualifiés sont présents sur les forums depuis longtemps, leur taux d’activité relatif est donc bien inférieur, malgré un nombre important de messages.

DESCRIPTION STATISTIQUE DE L’ÉCHANTILLON

Moyenne Std Min Médiane 75ème centile Max
Longueur de la liste des valeurs de niveau de compétence 99,42 255,76 4 25 85 3449
Niveau de compétence (valeur du 70ème centile) 2,19 0,64 1 2 3 3
Nombre de posts (CVE avec CAPEC) 14,55 31,37 4 6 10 375
% engagement 36,68 29,61 0 25 50 100
Durée de l’activité (jours) 449,07 545,02 1 227,00 690,00 2669,00
Taux d’activité 0,72 1,90 0,002 0,04 0,20 14,00

Figure 3 : Une répartition des scores de compétence, d’engagement et de taux d’activité pour le groupe échantillon

Comme indiqué ci-dessus, l’échantillon pour l’identification des acteurs clés était composé de 359 acteurs. L’acteur moyen avait 36,68% de publications dédiées à sa communauté d’intérêt et avait un niveau de compétence de 2,19 (“Moyen“). Le taux d’activité moyen était de 0,72.

 APERÇU DES COMMUNAUTÉS D’INTÉRÊT (COI)

Communauté Communauté

d’intérêt

Nœuds CAPEC Acteurs % on-timers Degré sortant moyen par acteur Std (degré sortant) Nombre moyen de posts spécialisés Std (posts)
0 Élévation de privilèges 544 19 525 65,14 4 7,11 2 4,76
1 Web-based 497 26 471 71,97 5 12,98 3 18,33
2 Général / Divers 431 103 328 56,10 14 33,15 7 24,89
3 XSS 319 10 309 71,52 2 1,18 1 1,46
4 Recon 298 55 243 51,44 61 9,04 3 6,99
5 Usurpation d’identité 296 25 271 54,61 12 7,88 3 5,49
6 Persistance 116 22 94 41,49 26 25,76 5 7,96
7 OIVMM 83 3 80 85,00 1 0,31 1 1,62

Figure 4. Les scores relatifs des acteurs regroupés dans chaque communauté d’intérêt

14 aiguilles dans une botte de foin
Enfin, pour identifier les acteurs véritablement clés – ceux dont le niveau de compétence, l’engagement et le taux d’activité sont suffisamment élevés pour être considérés comme des experts dans leur domaine – les chercheurs ont utilisé l’algorithme de clustering K-means.  En utilisant les trois mesures créées pour la relation de chaque acteur avec les CAPEC, les 359 acteurs ont été regroupés en huit groupes avec des niveaux similaires des trois mesures.

cybercriminalite

 APERÇU DES CLUSTERS

Clusters Bouchard & Nguyen framework * Centroïde [Compétence ; Engagement ; Activité] Nombre d’acteurs % de la population échantillon
0 Amateurs [2,00 ; 22,47 ; 0,11] [Moyen ; Faible ; Discret] 143 39,83
1 Pro-Amateurs [2,81 ; 97,62 ; 5,14] [Élevé ; Élevé ; De courte durée] 21 5,85
2 Professionnels [2,96 ; 90,37 ; 0,28] [Élevé ; Élevé ; Actif] 14 3,90
3 Pro-Amateurs [2,96 ; 25,32 ; 0,12] [Élevé ; Faible ; Discret] 86 23,96
4 Amateurs [1,05 ; 24,32 ; 0,05] [Faible ; Faible ; Discret] 43 11,98
5 Moyenne des criminels de carrière [1,86 ; 84,81 ; 0,50] [Faible ; Élevé ; Actif] 36 10,02
6 Pro-Amateurs [2,38 ; 18,46 ; 10,67] [Moyen ; Faible ; Hyperactif] 5 1,39
7 Amateurs [1,95 ; 24,51 ; 4,14] [Moyen ; Faible ; Hyperactif] 11 3,06

Figure 5 : Une analyse des huit groupes avec une notation basée sur la méthodologie du framework développé à partir des travaux des criminologues Martin Bouchard et Holly Nguyen; comme décrit ci-dessus, le taux d’activité a été ajouté comme modification à ce framework. Notez le faible nombre d’acteurs véritablement professionnels, même parmi l’ensemble de données de 359.

Un groupe de 14 acteurs a été classé comme “Professionnels” — des individus clés ; les meilleurs dans leur domaine ; avec des compétences et un engagement élevés et un faible taux d’activité, encore une fois en raison de la durée de leur implication dans les forums (une moyenne de 159 jours) et un taux de publication qui était en moyenne d’environ un post tous les 3 à 4 jours.  Ils se sont concentrés sur des communautés d’intérêt très spécifiques et n’ont pas publié grand-chose au-delà, avec un niveau d’engagement de 90,37%. L’approche analytique de cette recherche présente des limites inhérentes, principalement en raison de la dépendance à l’égard de la cartographie CAPEC et CVE du MITRE et des niveaux de compétences attribués par le MITRE.

Conclusion

Le processus de recherche comprend la définition des problèmes et la recherche de la manière dont diverses approches structurées pourraient conduire à une meilleure compréhension.  Les dérivés de l’approche décrite dans cette recherche pourraient être utilisés par les équipes de renseignement sur les menaces (Threat-Intelligence) pour développer une approche moins biaisée pour identifier les cerveaux de la cybercriminalité, et Sophos CTU va maintenant commencer à examiner les résultats de ces données pour voir si elles peuvent façonner ou améliorer nos recherches existantes menées par l’homme dans ce domaine.

Billet inspiré de Using AI to identify cybercrime masterminds, sur le Blog Sophos.