Table of Contents

高度な機械学習によるユーザーの異常とアカウント乗っ取りの検出

ユーザー アカウントを詐欺や乗っ取りから保護することは、数十年にわたる問題です。詐欺師がツールやテクノロジーを構築する高度な技術とスキルを身につけ、初心者の犯罪者でもコードを 1 行も書かずにアカウントやデータの侵害を実行できるようになるにつれて、この問題はますます複雑になっています。

VentureBeat は最近、ChatGPT がメール フィッシング キャンペーンのサンプル コードを数秒以内に生成する方法、さらにキャンペーンを開始するために使用できる魅力的で文法的に正しいメールを提供する方法の詳細な例を示しました

テクノロジーの巨人でさえ、こうした種類の攻撃に対して脆弱です。2022年後半、「 Meta-phish 」と呼ばれるフィッシングキャンペーンが、電子メールのセキュリティチェックを回避してユーザー情報を収集し、FacebookおよびTwitterユーザーに対して大量のアカウント乗っ取り攻撃を実行しました。

テクノロジー業界であろうと他の業界であろうと、どの企業もエンドユーザーや顧客がこのようなソーシャル エンジニアリングの罠を回避することを期待することはできません。そのため、業界全体のリーダーは、この問題の解決に取り組む必要があります。

幸いなことに、適切なテクノロジーと専門知識があれば、サービス プロバイダーは時代を先取りし、巧妙な攻撃手法を効果的に追跡することができます。アカウント乗っ取り攻撃は機械学習を使用して検出および軽減することができ、これはサービス プロバイダーが進化する ATO 問題に大規模に対処するために実行できる最も効果的なアプローチであると考えられています。

機械学習を活用してATOを防ぐ

このブログでは、問題を定義し、ヒューリスティックやルールベースのモデルと比較した機械学習の利点を説明し、その有効性を示す実際の例を示しながら、アカウント乗っ取りを防止するために機械学習を使用するさまざまな側面について説明します。

アカウント乗っ取りとは何ですか?

高度なテクノロジーとソフトウェアの脆弱性は、ID セキュリティ システムを回避してユーザー アカウントにアクセスしようとする悪意のある人物によって、別々に、または組み合わせて使用される可能性があります。このアクセスにより、攻撃者は送金やクレジットカード情報の盗難など、さまざまな悪意のある活動を実行できるようになります。これらの活動は通常、金銭的な動機によるものであり、企業とその顧客の両方に壊滅的な損害をもたらす可能性があります。

この問題を解決するための最良かつ最強のツールは、アプリケーションの一般的な使用パターンと個々のユーザーの特定のパターンに関する情報とコンテキストです。この情報があれば、特定のユーザーがサービスとやり取りする方法における異常を検出できます。これは、既知のパターンや履歴からの逸脱によって最もよく見られます。

特定のユーザーの行動における異常を見つけることは、これまで以上に困難になっています。今日のユーザーの行動は多様化しているため、ユーザーの通常の ID と行動の両方を考慮し、ユーザーの完全な履歴プロファイルを考慮に入れた、より堅牢なアカウント乗っ取り検出ソリューションが必要であり、ここで機械学習 (ML) が役立ちます。

現在、アカウント乗っ取りシステムは、次のようなルールベースの検出方法に頻繁に依存しています。

  • 全てのユーザーに適用される一般ルール
  • 人間が生成したもので、費用と時間のかかるメンテナンスと研究が必要
  • 本物のユーザーを誤ってタグ付けする誤検知率が高く、詐欺師にアカウントへのアクセスを許可するため、同等かそれ以上の損害をもたらす誤検知率も高い傾向がある。

機械学習とルールベースの検出

では、なぜ ML ベースの戦略が他のアカウント乗っ取り検出方法よりも優れているのでしょうか?答えはその利点にあります。

  1. 堅牢性– これらのアルゴリズムは、さまざまなデータ ポイント間の複雑な接続を検出し、ヒューリスティック ルールを作成する人間だけでは見つけられない複雑な異常パターンを見つける機能を備えています。したがって、ML アルゴリズムは、分布の変化や新しい攻撃ベクトルに耐えられるほど堅牢です。
  2. 適応– ML モデルは最新のデータを活用して、攻撃ベクトルや顧客トラフィックの変化に迅速に適応できますが、人間は時間の経過とともに真実ではなくなる可能性のある先入観に頼ることがよくあります。
  3. 効率性– 不正検出システムが受信するトラフィックが増えるほど、ルールを更新する必要があり、これらのルールを調査するアナリストの数も増えます。比較すると、機械学習では追加のイベントを分析するために追加のサポートは必要ありません。
  4. 精度– アルゴリズムに提供されるデータが増えるほど、アルゴリズムはよりスマートになり、より正確になります。
  5. 誤検出の減少– アルゴリズムは各ユーザーの行動プロファイルを学習するため、グローバル ルールが個別のユーザーに適用された場合に発生する可能性のある誤検出が少なくなります。

問題の種類: 新規性の検出

私たちが解決する問題のタイプは、AI 分野では新規性検出の問題として定義されています。これは、外れ値を含まないデータ (正当なユーザー行動データなど) を入力として使用し、新しいデータ ポイントがこの通常のデータ セットの範囲外にあるかどうかを確認する異常検出方法の一種です。

ユーザーの行動と特性をどのように表現するか

モデルを作成するには、まずモデルに「学習」させたいデータ、つまりユーザー アクティビティ データを投入します。特徴エンジニアリングのプロセスを通じて、ユーザーの行動に関する生のデータ ポイント (特徴と呼ばれます) が変換され、アルゴリズムが最適化され、アカウント乗っ取り活動に対してより公平で正確な結果が保証されます。

高度な機械学習によるユーザーの異常とアカウント乗っ取りの検出 - ML Blog img 2

以下は、Transmit Security の検出および対応サービスの機械学習エンジンに入力する機能の例です。

  1. アクティビティ ジャーニー機能には、ユーザーの通常のアクティビティ時間、クライアント情報とその使用頻度 (Web ブラウザー、リモート デスクトップ接続など)、アプリケーション操作中の使用パターンなどが含まれます。
  2. 地理機能は、接続場所、タイムゾーン、この場所からのアプリケーションの使用頻度など、ユーザーの場所に関連します。
  3. ネットワークの評判、VPN、Tor ブラウザ、ホスティング ASN の使用、現在の IP アドレスからの以前のアクティビティ パターンなど、アクセス ネットワークに関連するネットワーク機能
  4. デバイス機能。疑わしいツールの使用を検出するために、信頼できるデバイスのデバイス フィンガープリントとデバイスの評価を計算します。
  5. 行動バイオメトリック機能は、アプリケーションでの以前のユーザーアクティビティと比較して、ユーザーのマウスの動きの速度や角度、タイピング速度など、ユーザーデバイスの固有のインタラクションパターンを検出して計算します。

これらすべてのパラメータとその他多くのパラメータが時間の経過とともに測定され、アプリケーション内の各アカウント所有者のユーザー プロファイルが作成されます。これらのプロファイルは、Transmit Security リスク エンジンによって使用され、ユーザーのアカウントによって実行されたアクションが正当かどうかを判断します。

検出モデルのトレーニングと結果の観察

手元のタスクに応じてモデルを最適化するプロセスは、モデルの「トレーニング」と呼ばれます。トレーニング段階では、特定の成功指標を最大化するために、モデルのパラメータを繰り返し変更します。各ステップで、モデルが調整されるまで、これらのパラメータを変更するためのデータがモデルに入力されます。

高度な機械学習によるユーザーの異常とアカウント乗っ取りの検出 - ML Blog img 3 1

トレーニング段階が終了すると、モデルは通常のユーザーデータで最適化され、トレーニングされたアルゴリズムをテストするテスト段階に進みます。これらのテストでは、お客様の環境で検出された既知の悪意のある動作と、合成データと呼ばれる人工的に作成されたサンプルの両方からの関連する攻撃ケースを利用します。

現実世界で悪質な行為者を追い詰める

それでは、実際の使用例で新規性検出モデルの機能を実証してみましょう。

このケースは、通常は特定の場所 (米国コネチカット州) から接続するが、カナダを含む他のいくつかの国からも接続する米国の大手銀行の顧客に関するものです。この同じ人物は、モバイル デバイスと PC という 2 つの既知のデバイスを所有しています。ユーザーには関連する IP が複数あり、通常は午前 10 時から午後 9 時の間に接続し、VPN 接続を使用することはほとんどありません。さらに、彼は普段は Chrome ブラウザを使用しており、特定の範囲で特定のマウスの動きを表示します。

この行動パターンは、台湾の IP アドレスを持つこのユーザーから、不明なデバイス、新しいブラウザ タイプ (Edge)、ユーザーの通常のパターンと比較して遅く変化の少ないマウスの動きを伴うイベントをシステムが受信したときに突然中断されました。接続時間はユーザーの通常のログイン時間と異なり、デバイスには以前のデバイスにはなかったプロパティ (新しい言語やフォント) が含まれていました。このイベントがモデルによって検出された場合、「チャレンジ」の推奨がトリガーされます。このような推奨事項は、ユーザーのステップアップに使用できます。

機械学習におけるモデルの説明可能性

機械学習アルゴリズムの多くは、判定の理由を明示的に示さないため、「ブラックボックス」アルゴリズムと呼ばれることがよくあります。現代のリスクおよび詐欺検出システムでは、これは受け入れられません。このギャップを埋めるために、さまざまな要因が特定のモデルの予測にどのように寄与するかを説明する具体的な方法を提供するSHAP 値の使用を含む、モデルの説明可能性(または説明可能な AI) の分野が台頭してきました。SHAP 値を使用すると、判定だけでなく、判定に影響を与えた特徴とその重要度順もリストできます。

新たな脅威環境におけるイノベーションの必要性

覚えておいてください: 攻撃者は、日々進歩するテクノロジーを活用して、さらに巧妙化し続けるでしょう。新しい回避戦術や手法が登場するにつれて、静的なルール セットはすぐに古くなり、変化する攻撃パターンを検出して分析できるように継続的に更新される、より機敏な検出アプローチが必要になります。機械学習アルゴリズムは、効果的なユーザー異常検出に不可欠であり、現代のアカウント乗っ取りの課題に対処するための堅牢で信頼性が高く、スケーラブルな検出ソリューションを提供します。

Authors