Table of Contents

半教師あり機械学習を用いたボット検出技術

悪質なボット トラフィックは現在、インターネット トラフィック全体のほぼ半分を占めていますが、ルールベースのボット検出をまだ使用している場合は、そのことに気付かないかもしれません。これらのボットの 65% は回避戦術を使用しているため、悪意のあるボットの検出が困難になり、ボット軽減に対する従来のアプローチはますます効果がなくなってきています。そのため、企業は増大する脅威を制御するために機械学習 (ML) ベースの方法に切り替える必要があります。

しかし、高度な ML ベースの技術は、認証情報の詰め込み、新規アカウント詐欺、認証情報のクラッキング、その他の詐欺などのボット関連の脅威から保護するのに役立ちますが、効果的な ML モデルを作成するには、検出および対応ベンダーがまず ML ベースの検出の主要な課題を解決する必要があります。

このブログ投稿では、当社のリサーチ ラボがこれらの課題を克服して ML ベースのボット検出を改善した方法、機械学習ベースのボット検出モデルで使用する半教師あり ML 手法と機能、およびボット検出結果を検証する方法について説明します。

機械学習を用いたボット検出の課題

ML ベースのボット検出を複雑にする主な課題は、ラベル付けまたはラベルの信頼性です。効果的な ML モデルを開発するには、トレーニング、テスト、検証に使用できる大量のラベル付きデータが必要です。

しかし、ボット検出に関しては、これは困難な作業になりつつあります。収集した特徴からさまざまなボット兆候に対して確固としたラベルが付けられていますが、それらの兆候は通常「愚かな」ボットを表しており、ルール エンジンと自動化テストで簡単に処理して検出できます。しかし、検出が難しくなってきている卑劣な行為についてはどうでしょうか? 

ランダムなマウスの動きを利用する行動ボット、 高度な自動化フレームワーク リクエストに関する情報をより少なく公開するものや、CAPTCHA やその他のチャレンジを完了してボットを支援するために使用されるクリック ファームは、ボットが従来の検出方法のレーダーを簡単にすり抜けることができる回避テクニックのほんの一部です。

これらの技術により、ボットの検出に必要なデータの収集が難しくなりますが、最終的には、高度なツールと技術を使用するボットオペレーターであっても、作業に役立つ手がかりを残してくれます。すべてのタイプの自動化は同様の特性を持っているという仮定に基づいて、ラベル付けの課題を克服するための計画を考案しました。既知のすべてのボットのデータを分析することで、利用可能なデータ ポイントのどれが何らかの自動化の兆候を提供できるかがわかるかもしれません。これは、取り組む価値のある興味深い課題です。

現在、ハード ポジティブ ラベル (ボット) を持つインスタンス、非ボット (人間のユーザー) のハード ネガティブ ラベルを持つインスタンス、およびラベルなしデータの広範なフィールドがあります。これを念頭に置いて、以下で説明するように、機械学習の世界でモデルをトレーニングするために使用される 3 つのカテゴリの 1 つである半教師あり ML 手法を使用することを選択しました。

  • 教師なし学習 共通の特性を持つグループ (クラスター) への分割など、データセット内の興味深い構造を見つける問題に関するものです。その名前は、モデルのトレーニング中にラベル付きデータを使用しないことに由来しています。ほとんどの場合、ラベル付きデータは存在せず、顧客タイプのグループ化など、データ内で興味深い洞察を発見したいからです。
  • 教師あり学習 数値 (回帰)、クラス (分類)、またはその両方の組み合わせを予測するために使用されます。たとえば、数値を予測し、その後出力に対してしきい値を作成してクラスを作成したり、確率を予測したりするために使用できます。教師あり学習モデルのトレーニング中は、ラベル付きデータのみを使用します。教師あり学習のユースケースの簡単な例としては、家の大きさ、寝室の数、近隣の所得水準などのパラメータに基づいて家の価格を予測することが挙げられます。
  • 半教師あり学習 (SSL) 教師あり学習と教師なし学習を組み合わせて使用します。ラベルなしデータに加えて、アルゴリズムにはいくつかの教師あり情報が提供されますが、必ずしもすべての例に提供されるわけではありません。多くの場合、この情報はいくつかの例に関連付けられたターゲットになります。

利用可能なデータを考慮すると、SSL 技術は、ハード ラベルのトレーニングを補完するために使用できるより多くの情報を取得する方法を提供しました。これは、ハード ポジティブ ラベルから、まだ考慮していないボット インスタンスに直面していることを示す機能と兆候がある可能性があるためです。

半教師あり学習技術

SSL テクニックには、ラベルのないインスタンスに拡張された関数を使用してニューラル ネットワークを構築すること、各データ ポイントを異なる方法で処理するさまざまなモデルを組み立てること、教師なしクラスタリングを使用して事前にラベルを作成することなど、多数あります。このトピックに関する現在の文献の大部分は、ディープラーニングに関する SSL の問題を扱っていますが、ここでは表形式のデータを使用して処理しているため、より柔軟で深い洞察が得られます。

ここで提案する手法は擬似ラベリングと呼ばれ、 ニューラルネットワークへの実装。その概念は、ロジスティック回帰やブーストツリーモデル(XGBoost、CatBoost など)などの従来の ML アルゴリズムに適用できます。

主なアイデアはシンプルです。まず、ラベル付きデータでモデルをトレーニングし、次にトレーニングしたモデルを使用してラベルなしデータのラベルを予測します。これにより、疑似ラベルが作成されます。最後に、ラベル付けされたデータと新しく疑似ラベル付けされたデータを新しいデータセットに結合し、モデルの再トレーニングに使用します。

ラベル付きデータでトレーニングされたモデルを使用して、ラベルなしデータの疑似ラベルを作成する半教師あり ML プロセス

機械学習ベースのボット検出モデルの特徴

ボット検出モデルは、さまざまな興味深いデータ ポイントを使用して悪意のあるボットを検出します。これらのデータ ポイントには、ユーザーの行動やユーザー エージェント情報のほか、ユーザーのデバイスの特性やネットワーク アクティビティなどの他の要素が含まれる場合があります。しかし、モデルがこれまで発見できなかった特徴を学習して組み合わせることができるように、できるだけ多くのデータ ポイントを追加したいと考えています。

Transmit Security Research Labs では、これらの新しい機能を収集するために広範な調査を実施しました。これらの機能はいくつかのカテゴリに分類できます。

  • 行動データ、 これは、タイピング速度、キーストローク間の時間差、マウスの移動速度、マウスの移動加速度、マウスの動きの曲率角度、またはそれらの機能の変化の分散など、ユーザーとデバイスのインタラクションに関連します。
  • デバイスデータ、 CPU からオーディオ カード、GPU まで、さまざまなパフォーマンス テストを実行して取得したデバイス特性が含まれます。
  • ネットワークデータ IP ロケーション、IP ASN タイプ (ホスティング サーバーやプロキシなど)、IP ASN ベンダー (疑わしいベンダーを分類するため) などのさまざまなネットワーク機能とエンリッチメントに基づきます。
  • 速度データ たとえば、登録試行のレート、一意の IP アドレスによって送信されたアクションの数、成功した登録または失敗したログイン試行の数、特定の期間内に行われたクリックまたはページ間の遷移の数などです。これらのカウンターは、IP、デバイス フィンガープリント、ユーザー ID ごとに集計されます。

ボット検出結果の検証

思い出していただければ、これらの実験の主な目的は、これまで検出できなかったボットを検出することでした。ここで疑問が生じます。ボット検出モデルによって行われた新しい予測が正確であるかどうかをどのように検証できるでしょうか?

これらの結果を検証するために、新しいボットインスタンスのサンプルを採取し、マウスの動きと行動データをプロットして、人間のインスタンスと比較しました。同時に、モデルが新しいデータにどのように一般化されるかを判断するために、これまで検出されていなかった並列自動化を作成しました。

以下に、登録ページでのボットと人間の動きの違いを示すマウスの動きのプロット例を示します。

これらの実験に基づいて、高度なボットを示唆する異常を検出するモデルの能力をさらに向上させることができ、新たな回避戦術を常に先取りできるようになります。

結論

悪意のあるボットを検出するために、ボット検出モデルは、ユーザーの行動やユーザー エージェント情報、ユーザーのデバイスの特性やネットワーク アクティビティなどの他の要素を含むさまざまな興味深いデータ ポイントを使用します。

ただし、従来のルールベースのボット検出は、一般的な機能の組み合わせに基づいています。つまり、特定の特性の組み合わせに準拠していないボットは検出を回避し、ネガティブとしてタグ付けされます。そして、詐欺師が検出を逃れるためにますます洗練された手法を展開し続けるにつれて、この偽陰性率は上昇し続けるでしょう。

これは、ルール エンジンがボットの指標として認識することのないさまざまな組み合わせを学習するために、何百万もの例をトレーニングして決定を下す ML および AI ベースのモデルとは対照的です。つまり、従来の検出方法で必要となる継続的な手動調整や分析を必要とせず、新たな詐欺手法の出現にも対応できるということです。

ボット検出モデルは、幅広いデータ ポイントを分析し、半教師あり学習、ディープラーニング、セキュリティ調査、脅威インテリジェンスなどの高度な AI 技術を適用することで、人間とボットのアクティビティを正確に区別し、悪意のあるボットから保護することができます。

Transmit Securityのボット検出機能の詳細については、 ボット検出ソリューション概要 または当社の 米国の大手銀行のケーススタディ 当社の検出および対応サービスを使用することで、ボット攻撃を 500% 多く検出できるようになりました。

Author