** 本記事は、The sixth sense for cyber defense: Multimodal AI の翻訳です。最新の情報は英語記事をご覧ください。**
2024 Virus Bulletin カンファレンスにおいて、ソフォスのプリンシパルデータサイエンティストである Younghoo Lee が、SophosAI の「マルチモーダル」AI (多様なデータタイプを統合した分析フレームワーク) に関する研究について発表しました。Lee は講演の中で、スパム、フィッシング、安全でない Web コンテンツの検出にマルチモーダル AI を適用するチームの斬新な実証研究について説明しました。
マルチモーダル AI とは?
マルチモーダル AI は、人工知能における大きな転換を意味します。従来のシングルモード分析ではなく、マルチモーダルシステムは複数のデータストリームを同時に処理し、複数の入力からのデータを合成できます。
サイバーセキュリティの文脈では、特に脅威の分類に関しては、強力な能力です。マルチモーダルシステムは、テキストとビジュアルのコンテンツを別々に分析するのではなく、両方を処理し、それらの間の複雑な関係を「理解」します。
たとえば、フィッシングの検出では、マルチモーダル AI はロゴやブランディング要素の視覚的忠実性とともに、テキストの言語パターンや文体を調べ、さらにテキストと視覚的要素間の意味的整合性も分析します。この総合的なアプローチにより、従来のシステムでは発見できない高度な攻撃も識別できます。さらに、マルチモーダル AI は、異なるデータタイプ間の相関関係から学習し、適応することで、正規のコンテンツと悪意のあるコンテンツが複数の次元でどのように異なるかを理解できます。
能力
研究の中で、Lee はマルチモーダル AI システムの検出能力について詳述しています。
テキスト分析と自然言語理解
- 言語パターン、文体、コンテキストなどの手がかりを分析し、操作の試みを特定する
- 緊急性を煽ったり、機密情報を要求したりするようなソーシャルエンジニアリングの手法を検出する
- 進化するフィッシングの口実やシナリオのデータベースを維持/管理
視覚的な知識とブランド認証
- ロゴ、企業のスタイリング、視覚的レイアウトを正規テンプレートと比較
- ブランドカラー、フォント、レイアウトの微妙な違いの検出
- 画像のメタデータとデジタル署名の検査
高度な URL およびセキュリティ分析
- タイポスクワッティング や ホモグラフ攻撃のような欺瞞的手法の識別
- 表示されたリンクテキストと実際のリンク先の関係分析
- スタイリングやフォーマットを改変して悪意のある URL を隠そうとする試みの検出
ケーススタディ: Costco (コストコ) の偽メール
以下の画像は、本物のフィッシングメールで、Costco からの景品に当選したと信じ込ませるように設計されています。このメールは Costco のロゴとブランドを模倣しており、正規のものに見えます。
図 1: Costco を装ったフィッシングメールのスクリーンショット
マルチモーダル AI は、このメールのいくつかの不審な点を特定できます。
- 緊急性を強調し、行動を促すフレーズ
- 送信者の電子メールドメインが正規のドメインと一致しない
- ロゴと画像の不一致
結果として、システムはこのメールに高いスコアを付け、不審な電子メールとしてフラグを立てます。
SophosAI はさらに、ギャンブルや武器などに関連するコンテンツを含む NSFW (not safe for work) な Web サイトにもマルチモーダル AI を適用しました。フィッシングメールの分類と同様に、検出にはキーワードやフレーズの評価 (言語に依存しません)、画像やグラフィックの分析など、多くの機能が活用されます。
実験結果
Random Forest や XGBoost のような従来の機械学習モデルと比較したマルチモーダル AI の有効性を検証するために、SophosAI は一連の実証実験を行いました。結果の詳細は Lee のホワイトペーパーおよび Virus Bulletin の講演に掲載されていますが、簡単に説明すると、従来のモデルは既知の脅威を検出する際に優れた性能を発揮する一方、未知の新しいフィッシングメールには苦戦します。F1 スコア (精度と再現率をバランス良く測定し、0 から 1 の間で全体的な精度を表す指標) は、未知のサンプルでは 0.53 と低く、最高でも 0.66 でした。対照的に、(GPT-4o を使用した) マルチモーダル AI は新しいフィッシングの試みを検出する際に非常に良い結果を出し、未知のブランドでも 0.97 までの F1 スコアを記録しました。
NSFW コンテンツについても同様で、従来のモデルでは F1 スコアは 0.84~0.88 程度でしたが、マルチモーダル AI を埋め込んだモデルでは 0.96 まで上昇しました。
結論
デジタルの世界は絶え間なく進化しており、ユーザーを欺くための生成 AI の利用など、新たな脅威をもたらしています。フィッシングメールは正規の通信を綿密に模倣しており、NSFW Web サイトは、偽のビジュアルの背後に有害なコンテンツを隠しています。従来のサイバーセキュリティ手法も依然として重要ではあるものの、それだけでは不十分になってきています。マルチモーダル AI は、コンテンツの理解力を高める革新的な防御層を提供します。
巧妙なフィッシングメールを効果的に検出し、NSFW Web サイトを正確に分類することで、マルチモーダル AI はユーザーをより効果的に保護するだけでなく、新たな脅威にも適応します。Lee が論文で発表した実験結果は、従来の方法よりも大幅に改善されたことを示しています。
今後、サイバーセキュリティ戦略にマルチモーダル AI を取り入れることは、単に有益なだけでなく、増大する複雑さと脅威の中でデジタル環境の保護を確保するために極めて重要です。
詳細については、こちらから Lee のホワイトペーパー全文をご確認ください。2024 年 Virus Bulletin での講演の録音はこちらです (スライドはこちらです)。