Table of Contents

新規アカウント詐欺を検出するための機械学習技術

詐欺行為の検出においては、文脈がすべてです。しかし、ほとんど何も知らないユーザーの行動をどのように評価すればよいのでしょうか?このジレンマは、新規アカウント詐欺に悩む多くの企業にとって大きな悩みの種となっています。新規アカウント詐欺は、詐欺師が正当なユーザーになりすましたり、実際の ID データと合成 ID データを組み合わせて悪意のある目的でアカウントを作成したりする手口が急増しています。提供される ID データは偽物であり、企業は異常を発見するために活用できるユーザーの行動パターンに関するデータをほとんど持っていないため、新しいアカウント詐欺を検出するのは困難です。しかし、高度な機械学習技術を活用すれば、企業はこの増大する脅威から保護されることができます。このブログ投稿では、新規アカウント詐欺の検出の難しさ、詐欺師によるアカウント開設を防ぐために Transmit Security が使用する機械学習技術、およびモデルの有効性を確保するためにモデルを開発、分析、監視する方法について詳しく説明します。新規アカウント詐欺機械学習モデルに使用されるデータポイント

お客様の環境での登録プロセス中のユーザーの行動を分析することで、正当な登録と悪意のある登録を区別するのに最も関連性の高いデータを判断できます。

ユーザーの行動

新規アカウント詐欺が人間、ボット、または人間が支援するボットのいずれによって実行されているかにかかわらず、その動作はログイン中の顧客の平均的な動作とは異なります。正当なユーザーは、名前、電子メール、電話番号などの個人情報を再確認する必要はありませんが、詳細を入力する詐欺師は、過度の入力ミスを犯したり、入力速度が遅かったり一貫性がなかったり、登録フォームに情報を切り取って貼り付けたりする可能性があります。逆に、大規模な詐欺師の攻撃では、特定のアプリケーションの登録フォームを熟知している可能性があり、その結果、通常のユーザーよりも大幅に高速なナビゲーションが可能になります。通常のユーザーは、入力する前に一時停止してさまざまなフォームやフィールドの情報を読む可能性が高くなります。新規アカウントの不正行為を示す異常を正確に特定するために、ユーザー登録中に次のようなさまざまなデータ ポイントを分析します。

  • タイピングの速度と一貫性
  • 各分野に費やした時間
  • マウスの動き
  • タイピング速度と加速
  • 入力中のエラーや削除
  • フォームの親しみやすさ
  • 入力方法 (入力とコピー/貼り付け)
  • などなど

ユーザープロパティの配布

デバイスや OS などの個々のユーザーのプロパティの突然の変化が ATO を示している可能性があるのと同様に、アプリケーションの全体的なユーザー プロパティのプロパティの変化は、アプリケーションが大規模な詐欺キャンペーンの標的になっていることを示している可能性があります。たとえば、特定のデバイス タイプからの登録が急増している場合は、詐欺師がボットや自動化を使用して、限られた数のデバイスから登録詐欺を拡大していることを示している可能性があります。特に、それらのデバイス タイプがアプリケーションの一般的なユーザー ベースのごく一部にすぎない場合はその可能性が高くなります。Transmit Security は、リスクを高めたり、協調攻撃の存在を示唆する異常な特性を検出するために、デバイスの種類、OS、デバイスの属性、ユーザーの所在地の都市や国、その他多くの特性のプロファイルをお客様のアプリケーション ユーザーから作成し、アカウント登録時に機械学習モデルで活用してリスクを計算します。

地理位置情報分析

特定のデバイス タイプからの新規アカウント登録数が異常に多いことが詐欺の兆候である可能性があるのと同様に、特定の場所からの登録数が突然かつ説明のつかないほど増加していることは、それらの登録が単独の詐欺師または共謀している詐欺師のグループによるものであることを示している可能性があります。こうしたシナリオを検出するために、新規アカウント登録の分布が通常の分布とどのように比較されるかを分析し、使用状況ベースの異常を見つけるのに役立つ機能を開発します。生データを予測モデルの作成に使用できる特徴に変換するこのプロセスは、特徴エンジニアリングと呼ばれています。 ユーザーの異常を検出する方法に関するこのブログ。

ボットとエミュレータの機能

アカウント開設時にボット活動の兆候が見られる場合、それは詐欺行為の強力な兆候であり、洗練された人間のようなボットを正当なユーザーと区別するためには AI ベースの検出がますます必要になります。当社の機械学習モデルには、セッション継続時間の短さ、集中的なマウスクリック、高速タイピングなど、さまざまなシグナルから収集された情報が入力されています。 ボット検出の概要アカウント開設時にモバイル エミュレーターが使用されることも、詐欺の重要な兆候の 1 つです。詐欺師は、エミュレーターを使用して、ユーザーがさまざまなクリーンなデバイスで開設したように見える多数の新しい不正アカウントを作成し、攻撃を拡大することができます。口座開設モデル エミュレータの使用を検出する デバイスの製造、SIM、キャリアの評判、動作分析に関する情報を収集、分析します。

ブラウザの機能

正当なユーザーは追跡を回避したり、ターゲット広告をオプトアウトしたりするためにプライベート ブラウザを使用することが多いため、プライベート ブラウザの使用はそれ自体では詐欺の兆候にはなりません。ただし、プライベート ブラウジングでは、デバイス フィンガープリントの作成に使用されるブラウザー属性がランダム化されるため、リスク レベルが上昇する可能性があります。これにより、詐欺師は、単一のデバイスからの高速登録を防止するルールや、既知の悪意のあるデバイスに関するグローバル インテリジェンスを活用した検出を回避できるようになります。結果として、 プライベートブラウジング検出 個々のユーザーの行動やプライベート ブラウザの全体的な使用傾向を、他のリスク シグナルと組み合わせて、疑わしい行動を検出する要素として使用できます。

プライベートブラウジングトラフィックと通常のブラウザトラフィックのデータポイントを示すグラフ

新たなアカウント詐欺モデルの開発

結局のところ、機械学習モデルの良し悪しは、そのモデルのトレーニングに使用するデータの良し悪しによって決まります。そのため、アルゴリズムのトレーニング用に収集されたデータは、まず前処理されて、可能な限り最適な検出モデルが提供される必要があります。たとえば、ごく一部のケースでデータ コレクターがデバイス上の生データのほとんどを取得できない場合、それらのケースでアルゴリズムをトレーニングすると、登録中に実行されたアクションが不正であるかどうかを予測するモデルの能力が弱まる可能性があります。トレーニングに最適ではないデータを除外した後、保持したデータに基づいてアルゴリズムを開発します。

機械学習モデルの分析

私たちは、モデルのパフォーマンスを監視する人間のアナリストと収集された注釈付きデータの両方を使用してアルゴリズムを測定します。テナントに提供できるラベル付きデータの量に応じて、使用するアルゴリズムは、ラベル付きデータをモデルに入力してトレーニングする「教師あり」アルゴリズム、またはラベルなしデータセットからアルゴリズムが学習する「教師なし」アルゴリズムになります。教師あり学習では、顧客またはセキュリティ研究レビューからのラベル付きデータを使用して比較します。 真陽性と偽陽性および陰性 アルゴリズムによって予測されたものと比較します。そのような手法の 1 つが混同行列です (以下に示します)。

不正検出機械学習モデルの実際値と予測値の混同行列

そこから、モデルのパフォーマンスや肯定的な予測の精度など、さまざまな指標を計算できます。ただし、教師なし機械学習にはラベルがないため、異なるアプローチが必要です。代わりに、さまざまなマトリックスを使用してモデルのパフォーマンスを判断します。たとえば、悪意があると予測されたリクエストに特に固有のプロパティが含まれているか、既知の悪意のあるリクエストと一致するプロパティが含まれているかを測定します。モデルのパフォーマンスに関する洞察を収集したら、それを使用して、誤検出率や 1 日に提供されるアラートの最大数など、クライアントが要求する特定のメトリックに基づいてモデルを最適化できます。たとえば、ある顧客は、できるだけ多くのイベントをキャッチしたいと考えており、そのためにリコール率 (真陽性率とも呼ばれる) を 1 日あたり最大 0.5% に最適化したいと考えています。別の人は、毎日少なくとも 90% の精度 (対象クラスを予測する際にモデルが正しい頻度を示す) を目指すかもしれません。また、3 番目の人は、毎日少なくとも 90% の F1 スコア (再現率と精度の加重平均) を望むかもしれません。クライアントが要求したメトリックに基づいて、ユーザーごとに適切なしきい値を設定します。より詳細な 精度、F1、再現率の説明はこの投稿で提供されています Towards Data Science より。すべてのモデルにおいて、当社は顧客データの完全なプライバシーを維持し、開発や納品のどの段階でも、データが当社の安全な環境から外に出ることはありません。

機械学習モデルの監視

モデルが調整され、展開されると、セキュリティ分析チームの情報を活用して、アルゴリズムが新しい脅威や出現しつつある脅威にどの程度一般化されているか、また最適なパフォーマンスを実現するためのさまざまな他の指標を維持しているかについて、運用中のモデルを毎日チェックします。最新の保護を提供するためにモデルを調整する新しいアップデートが毎日プッシュされますが、ユーザーの行動が変化し、新しいデータが収集され、誤検知や誤検知に関するデータを顧客から受け取ると、より良い結果を提供するためにモデルを再トレーニングする必要がある場合があります。さらに、当社のセキュリティ研究チームは、モデルが悪意のあるアクティビティをより適切に検出するのに役立つ、より複雑で興味深い機能の開発に取り組んでいるため、進化する検出技術のメリットを享受するには、新しい機能に基づいてモデルを再トレーニングする必要がある可能性があります。より優れたモデルを展開できると判断した場合は、上記と同じ手順を使用してモデルを再開発します。

機械学習を活用して新規アカウント詐欺を検出する

詐欺師がさまざまな悪質な活動に新規アカウント詐欺を利用し続ける中、また合成 ID 詐欺やその他の高度な手法により新規アカウント詐欺の検出が困難になる中、アカウント開設時の詐欺を検出するために高度な機械学習モデルがますます必要になっています。Transmit Security は、特定のアプリケーションのユーザー プロパティ内の異常や登録ページでの動作を検出し、ボットやエミュレーターの検出の兆候、地理位置情報の異常、ブラウザー機能のリクエストを分析することで、ユーザーがアプリケーションを操作し始めた瞬間から不正な動作を特定するための強力な機械学習モデルを提供します。Transmit Securityがアカウント登録プロセスをどのように保護できるかについて詳しくは、当社のケーススタディをご覧ください。 米国の大手銀行が数千の登録ボットを発見 当社の検出および対応サービスを使用して、新規アカウント詐欺を 98% 削減しました。

Authors