Auch in der IT-Sicherheitsbranche kommt man mittlerweile kaum noch um das Thema „Maschinelles Lernen“ herum. Dabei muss man sich allerdings darüber im Klaren sein, dass Künstliche Intelligenz & Co. kein allheilender Feenstaub ist, der einfach mal über die Lösungen gepustet wird. Bei aller berechtigter Begeisterung für das Thema darf der Blick fürs Wesentliche nicht verloren gehen. Unternehmen, die maschinelles Lernen für die IT-Security einsetzen möchten, sollten sich mit folgenden Fragen auseinandersetzen, um effektiv von der Technologie profitieren zu können. Denn Machine Learning ist viel mehr als „nur“ Mathematik.
Frage 1: Das ist eine beeindruckende Erkennungsrate, aber wie sieht es mit False-Positives aus, wenn die Erkennungsrate so hoch eingestellt ist?
Das alleinige Aufführen von Erkennungsraten mit einem Machine-Learning-Algorithmus ist nicht genug. Letztendlich könnte z.B. einfach eine Erkennungsrate von 100 Prozent erreicht werden, in dem alle gescannten Dateien als „bösartig“ beurteilt werden. Damit wäre allerdings die False-Positive-Rate, also die fälschliche Einschätzung einer Datei als Malware, auch bei nahezu 100 Prozent. Wer die False-Positive-Rate ignoriert, jagt ständig Phantome im Netzwerk und macht den Nutzern das Leben unnötig schwer. Dieser Zusammenhang wird in der Receiver Operation Characteristic (ROC) Kurve visualisiert und stellt die wahre Erkennungsrate im Verhältnis zu den False Positives dar. Diese sollten Sie sich immer zeigen lassen – sowohl die aktuellen Werte als auch die aus der Vergangenheit.
Frage 2: Wie oft muss das Modell aktualisiert werden und wie stark leidet die Genauigkeit während der Updates?
Der große Vorteil von Machine Learning liegt in der Tatsache, dass ein gut trainiertes Modell sehr verlässlich bislang unerkannte Bedrohungen proaktiv erkennen kann. Es ist allerdings entscheidend für eine gute Technologie, dass sie nicht nur aktuelle Gefahren erkennt, sondern auch eine Charakterisik besitzt, die als „Slow Aging“ bezeichnet wird. Das heißt, dass das Modell neue Gefahren für eine lange Zeit erkennen sollte, ohne ein Update zu benötigen. Gute Machine-Learning-Modelle sollten also eine akzeptable Balance zwischen Erkennungsrate und False-Postivie-Rate für Monate aufrecht erhalten können, nicht nur für Wochen oder Tage. Lassen Sie sich also einfach mal die aktuelle ROC-Kurve für das Update von vor sechs Monaten zeigen.
Frage 3: Erfolgen die Entscheidungen des Machine-Learning-Algorithmus‘ in Echtzeit?
Wenn der Scanprozess für Malware länger dauert als die Zeit, die der Schädling braucht, um Unheil anzurichten, bedeutet das zwar Erkennung, aber keinen Schutz. Einige Machine-Learning-Varianten werden genutzt, um nach einer Attacke die Daten zu sichten und die sprichwörtliche Nadel im Heuhaufen zu finden. Das mag gut für die Prävention sein, aber wenn es darum geht, Attacken zu stoppen, bevor sie zuschlagen, ist ein Algorithmus nötig, der in Millisekunden agiert, nicht in Minuten oder Sekunden. Es geht darum, eine Lösung zu haben, die im Idealfall im Memory Cache läuft und damit keine wertvolle Zeit mit dem Lesen von Daten verliert. Sie sollten also überprüfen, ob die angestrebte Lösung in Echtzeit agiert und wie viel Zeit Entscheidungen benötigen. Ebenfalls entscheidend ist die Frage, was mit Performance und Genauigkeit passiert, wenn der Rechner offline ist.
Frage 4: Welches Trainingsset nutzt der Algorithmus?
Die Effizienz jeder Machine-Learning-Technologie hängt entscheidend von den Daten ab, mit denen die Modelle gefüttert werde – das sogenannte Training. Es gilt also das alte Sprichwort „Wo Müll rein kommt, kann auch nichts Gutes rauskommen.“ Wenn die gefütterte Daten zu praxisfremd und alt sind beziehungsweise keine realistischen Real-World-Dateien repräsentieren, hat es der Algorithmus schwer, verlässlich zu arbeiten, wenn es darum geht, Dateien außerhalb des Labs zu verarbeiten. Man sollte also genau nachfragen, woher die Trainingsdaten stammen, was sie realisitsch macht und wie sie aktuell gehalten werden.
Frage 5: Wie gut kann das Machine-Learning-System skalieren?
Wie angesprochen, ist das ständige Sammeln relevanter Trainingsdaten und der Umgang mit einer immer größeren Datenmenge schon eine echte Herausforderung. Damit ist es aber noch nicht genug, denn auch die verwendeten Modelle müssen in der Lage sein, die ständig wachsenden Datenmengen schnell zu verarbeiten, um z.B. die Update-Zeiten nicht immer länger werden zu lassen. Auf der anderen Seite muss das Data Set, das als Grundlage für ein Machine-Learning-Modell dient, möglichst konstant in der Größe sein, auch wenn das Training-Set exponentiell wächst. Sonst wird die Runtime-Performance immer schlechter. Skalierbarkeit hat also mehrere Variablen von der Größe des Trainingsets über den Zeitfaktor bis zum Erhalt eines kompakten Runtime Data Sets – ohne die Erkennungsrate zu gefährden. Lassen Sie sich historische Statistiken zeigen um zu sehen, wie sich Training- und Runtime-Performance entwickelt haben.
Fazit
Traditionelle signaturbasierte Anti-Virenprogramme bieten heute keinen zuverlässigen Schutz gegen moderne Malware. NextGen Endpoint Security Lösungen mit Machine-Learning-Technologien schaffen hier Abhilfe, da die Malware nicht mehr aufgrund der Ähnlichkeit mit bekannten Malwaresignaturen erkennt, sondern durch die Analyse der Eigenschaften einer Datei. Wenn sich Unternehmen vor den Einsatz mit diesen Technologien intensiv auseinandersetzen, sind sie in der Lage, eine moderne, sichere IT-Struktur aufzubauen. Wer sich näher damit auseinandersetzen will, wie Sophos das Thema Machine Learning nutzt, wird hier fündig: www.sophos.de/interceptx
Antwort hinterlassen