Les forums cybercriminels en ligne, tant sur l’Internet public que sur le “darkweb” et les sites Tor .onion, constituent une ressource précieuse pour les chercheurs en renseignement sur les menaces (Threat-Intelligence). La CTU (Counter Threat Unit) de Sophos dispose d’une équipe de chercheurs experts du darkweb qui collectent des renseignements et interagissent avec les forums darkweb, mais parcourir toutes ces publications est une tâche fastidieuse et gourmande en ressources, et il est toujours possible de passer à côté d’éléments importants.
Alors que nous nous efforçons de mieux utiliser l’IA et l’analyse des données, le chercheur en IA (Intelligence Artificielle) de Sophos, François Labreche, en collaboration avec Estelle Ruellan de Flare et de l’Université de Montréal et Masarah Paquet-Clouston de l’Université de Montréal, ont cherché à savoir s’ils pouvaient aborder le problème de l’identification des acteurs clés du darkweb de manière plus automatisée. Leurs travaux, initialement présentés lors du Symposium APWG 2024 sur l’ECR (Electronic Crime Research), ont récemment été publiés sous forme d’article.
L’approche
L’équipe de recherche a combiné un framework modifié et développé au départ par les criminologues Martin Bouchard et Holly Nguyen pour séparer les criminels professionnels des amateurs via une analyse de l’industrie criminelle du cannabis et en examinant des réseaux sociaux. Grâce à cette approche, ils ont pu connecter les comptes qui publiaient des informations sur les forums aux récentes CVE (Common Vulnerabilities and Exposures), soit en fonction du nom de la CVE, soit en mettant en parallèle la publication et les CAPEC (Common Attack Pattern Enumerations and Classifications) correspondants et définis par MITRE.
En utilisant le moteur de recherche de menaces Flare, ils ont rassemblé 11 558 messages de 4 441 personnes entre janvier 2015 et juillet 2023 sur 124 forums de cybercriminalité différents. Les publications mentionnaient 6 232 CVE différentes. Les chercheurs ont utilisé les données pour créer un réseau social bimodal qui connectait les CAPEC à des acteurs individuels en fonction du contenu des publications/posts de ces derniers. Dans cette phase initiale, ils ont concentré l’ensemble de données pour éliminer, par exemple, les CVE qui n’ont pas de CAPEC attribué et les méthodes d’attaque trop générales que de nombreux acteurs malveillants utilisent (ainsi que les personnes qui postaient et abordaient uniquement ces CVE généralistes). Un filtrage de ce type a finalement réduit l’ensemble de données à 2 321 acteurs et 263 CAPEC.
L’équipe de recherche a ensuite utilisé l’algorithme de détection de communauté de Leiden pour regrouper les acteurs en différentes communautés (“communautés d’intérêt “) ayant un intérêt commun pour des modèles d’attaque particuliers. À ce stade, huit communautés se sont distinguées comme étant relativement distinctes. En moyenne, les acteurs individuels étaient connectés à 13 CAPEC différents, tandis que les CAPEC étaient liés à 118 acteurs.
Figure 1 : Réseaux acteur-CAPEC bimodaux, colorés selon les communautés d’intérêt ; les CAPEC sont représentés en rouge pour plus de clarté.
Identifier les acteurs clés
Ensuite, les acteurs clés ont été identifiés en fonction de l’expertise dont ils avaient fait preuve dans chaque communauté. Trois facteurs ont été utilisés pour mesurer le niveau d’expertise :
1) Niveau de compétence : celui-ci était basé sur la mesure des compétences requises pour utiliser un CAPEC, telle qu’évalué par MITRE : “Faible“, “Moyen” ou “Élevé“, en utilisant le niveau de compétence le plus élevé parmi tous les scénarios liés au modèle d’attaque, pour éviter de sous-estimer les compétences des acteurs. Cette démarche a été utilisée pour chaque CAPEC associé à l’acteur. Pour établir un niveau de compétence représentatif, les chercheurs ont utilisé la valeur du 70ème centile de la liste des CAPEC de chaque acteur et leurs niveaux de compétence associés (par exemple, si John Doe abordait 8 CVE que MITRE a associé à 10 CAPEC – 5 classés comme ‘élevés’ par MITRE, 4 classés comme ‘moyens’ et un classé comme ‘faible’ – son niveau de compétence représentatif serait considéré comme ‘élevé’). Le choix de cette valeur de centile garantissait que seuls les acteurs dont plus de 30% de leurs valeurs étaient équivalentes à “élevé” seraient classés comme réellement hautement qualifiés.
RÉPARTITION GLOBALE DES VALEURS DE NIVEAU DE COMPÉTENCE
| Valeur du niveau de compétence | CAPEC | % des valeurs de niveau de compétence parmi toutes les valeurs de la liste des acteurs |
| Faible | 118( 44,87%) | 57,71% |
| Moyen | 66( 25,09%) | 24,14% |
| Élevé | 79( 30,04%) | 18,14% |
VALEURS DE NIVEAU DE COMPÉTENCE : RÉPARTITION STATISTIQUE
| Valeur du niveau de compétence | Proportion moyenne des membres dans la liste des acteurs | Médiane | 75ème centile | Std |
| Élevé | 29,07% | 23,08% | 50,00% | 30,76% |
| Moyen | 36,12% | 30,77% | 50,00% | 32,41% |
| Faible | 33,74% | 33,33% | 66,66% | 31,72% |
Figure 2 : Une répartition des évaluations du niveau de compétence des acteurs analysés dans la recherche
2) Niveau d’engagement : ce niveau a été quantifié par la proportion de publications/posts “d’intérêt” (publications relatives à un ensemble de CAPEC connexes basés sur des communautés d’intérêt similaires) par rapport au total des publications d’un acteur. Les acteurs ayant trois posts ou moins ont été écartés, réduisant ainsi le nombre d’acteurs à évaluer à 359.
3) Taux d’activité : les chercheurs ont ajouté cet élément au framework Bouchard/Nguyen pour quantifier le niveau d’activité de chaque acteur dans les forums. Elle a été mesurée en divisant le nombre de messages concernant un CVE et un CAPEC correspondant par le nombre de jours d’activité de l’acteur sur les forums concernés. En réalité, le taux d’activité s’avère être inversement proportionnel au niveau de compétence auquel opèrent les acteurs malveillants. Les acteurs les plus qualifiés sont présents sur les forums depuis longtemps, leur taux d’activité relatif est donc bien inférieur, malgré un nombre important de messages.
DESCRIPTION STATISTIQUE DE L’ÉCHANTILLON
|
Figure 3 : Une répartition des scores de compétence, d’engagement et de taux d’activité pour le groupe échantillon
Comme indiqué ci-dessus, l’échantillon pour l’identification des acteurs clés était composé de 359 acteurs. L’acteur moyen avait 36,68% de publications dédiées à sa communauté d’intérêt et avait un niveau de compétence de 2,19 (“Moyen“). Le taux d’activité moyen était de 0,72.
APERÇU DES COMMUNAUTÉS D’INTÉRÊT (COI)
|
Figure 4. Les scores relatifs des acteurs regroupés dans chaque communauté d’intérêt
14 aiguilles dans une botte de foin
Enfin, pour identifier les acteurs véritablement clés – ceux dont le niveau de compétence, l’engagement et le taux d’activité sont suffisamment élevés pour être considérés comme des experts dans leur domaine – les chercheurs ont utilisé l’algorithme de clustering K-means. En utilisant les trois mesures créées pour la relation de chaque acteur avec les CAPEC, les 359 acteurs ont été regroupés en huit groupes avec des niveaux similaires des trois mesures.
APERÇU DES CLUSTERS
|
Figure 5 : Une analyse des huit groupes avec une notation basée sur la méthodologie du framework développé à partir des travaux des criminologues Martin Bouchard et Holly Nguyen; comme décrit ci-dessus, le taux d’activité a été ajouté comme modification à ce framework. Notez le faible nombre d’acteurs véritablement professionnels, même parmi l’ensemble de données de 359.
Un groupe de 14 acteurs a été classé comme “Professionnels” — des individus clés ; les meilleurs dans leur domaine ; avec des compétences et un engagement élevés et un faible taux d’activité, encore une fois en raison de la durée de leur implication dans les forums (une moyenne de 159 jours) et un taux de publication qui était en moyenne d’environ un post tous les 3 à 4 jours. Ils se sont concentrés sur des communautés d’intérêt très spécifiques et n’ont pas publié grand-chose au-delà, avec un niveau d’engagement de 90,37%. L’approche analytique de cette recherche présente des limites inhérentes, principalement en raison de la dépendance à l’égard de la cartographie CAPEC et CVE du MITRE et des niveaux de compétences attribués par le MITRE.
Conclusion
Le processus de recherche comprend la définition des problèmes et la recherche de la manière dont diverses approches structurées pourraient conduire à une meilleure compréhension. Les dérivés de l’approche décrite dans cette recherche pourraient être utilisés par les équipes de renseignement sur les menaces (Threat-Intelligence) pour développer une approche moins biaisée pour identifier les cerveaux de la cybercriminalité, et Sophos CTU va maintenant commencer à examiner les résultats de ces données pour voir si elles peuvent façonner ou améliorer nos recherches existantes menées par l’homme dans ce domaine.
Billet inspiré de Using AI to identify cybercrime masterminds, sur le Blog Sophos.

