Table of Contents

音声認証は生成AIの台頭に耐えられない

過去数か月間の生成AIの急激な成長により、ユーザーの音声を複製できるアプリケーションの可用性と有効性の両方が向上し、金融企業が顧客アカウントを保護するためによく使用する音声認証システムを迂回するツールを詐欺師に提供することになりました。

オーディオディープフェイクの台頭により、多くの企業にとって、生成型 AI の時代において音声認識はもはや信頼できる認証手段とはみなされないという警鐘が鳴らされました。このブログ記事では、音声認証の有効性の低下、音声スプーフィングに使用される手法、そして金融機関やその他の組織が生成 AI がもたらす進化する脅威にどのように適応できるかについて説明します。

音声認証の有効性の低下

音声認証とは何ですか?

音声認証システムは、ユーザーの音声の固有のパターンを検出する音声認識ソフトウェアを通じて顧客の身元を確認する生体認証の一種です。これらのシステムを使用すると、顧客は「私の声がパスワードです」などの簡単なパスフレーズを繰り返すことで認証できます。

このソフトウェアは、過去 10 年間、コール センターなどの音声チャネルで顧客を厳格に認証する必要がある金融機関に採用されてきましたが、AI 音声クローン モデルの台頭により、これらのシステムの有効性は急速に低下しています。最近の AI の進歩により、これらのツールはこれまで以上に優れ、安価で、アクセスしやすくなったため、この傾向は加速する見込みです。

技術の進歩と可用性の向上

先月、 BusinessWire は、世界中の企業の 3 分の 1 がすでに音声認証詐欺の被害に遭っていると報告しました。しかし、音声認証詐欺は増加しているものの、かなり前から存在しており、 BBCは2019年に偽の音声を使用して認証システムを迂回した詐欺の事例が複数あったと報じている

当時、ディープフェイクは、AI モデルの構築と調整に時間と専門知識を投資する必要のある、技術的に熟練した詐欺師の領域でした。しかし、VALL-EやElevenLabsのような使いやすいAIツールが広く普及したことにより、今ではノートパソコンやスマートフォンを持っている人なら誰でもリアルな音声ディープフェイクを作成できるようになりました。 本物の声と区別することがますます難しくなってきています

これらのツールを使用すると、詐欺師は被害者の声を複製し、それを使用して音声認証システムを回避し、追加の生体チェックを完了することができます。場合によっては、フィッシング通話やオンラインの音声録音から取得した数秒のトレーニングデータのみを使用します。

音声なりすましツールと対策

3秒間の音声サンプルによる音声複製

現在市場に出回っている多くの AI 音声クローン ツールは、ナレーション、オーディオブック、障害者支援などの正当な目的で作成されていますが、悪用される可能性があることは明らかです。

生成 AI の台頭により、洗練されたモデルは次のことが可能になります。

  • 「えー」や「あのー」などの発声チックを真似する
  • 話者の声の音響環境を維持する
  • クローン音声にさまざまな感情を吹き込む
  • わずか3秒の音声をアップロードするだけで、あらゆる音声を複製できます。
  • UIに入力するだけで、クローンに繰り返してもらいたいフレーズを生成します。

この記事の執筆時点では、音声クローンのトピックに関する GitHub の公開リポジトリが48 個あり、その数は増え続けています。

そして、これらのモデルは常に改良され、使いやすくなっています。最近のViceThe GuardianWall Street Journalの記事では、これらのツールによって音声認証システムを騙すことができる音声クローンをいかに簡単に生成できるかが詳しく述べられています。

「カリフォルニア大学バークレー校のデジタルフォレンジック専門家、ハニー・ファリド氏に、合成音声や合成映像をどうやって見分けるのかと尋ねたところ、彼は「幸運を祈る」とだけ答えた。そして、すべての人をAI探偵にすることはできないとも付け加えた。」

– ウォールストリートジャーナル

現在市場にある最高の音声クローンツールは、たった3秒のサンプルを使って、新しい未知の話者から信憑性のある音声を作成することができます。 ゼロショット音声クローニングと呼ばれる機能結果がいかに素晴らしいかを知るには、 Microsoft の研究 Web サイトにある VALL-E のページで AI 生成の音声サンプルのライブラリにアクセスしてください。

さらに、高性能な音声編集ソフトウェアも広く普及し、使いやすくなっています。つまり、フィッシング詐欺師は、金銭を得るためにターゲットに資金を振り込むよう説得する必要はなく、クローンを作成するために使用できる数秒の会話を被害者から提供してもらうだけでよいのです。

これらの展開を考慮すると、2つの結論を導き出すことができます。

  • 音声生体認証はフィッシング攻撃に対して耐性がありません。 ディープフェイクの時代では、信頼できる連絡先の声を偽装し、ユーザーのパスフレーズを複製または編集するために必要な音声サンプルを提供する詐欺師に、最も知識のあるユーザーでさえ騙される可能性があります。
  • あなたの声がオンラインであれば、複製することができます: ソーシャルメディアの動画、ポッドキャスト、vlog、その他のオンラインクリップが普及していることと、ユーザーの声を複製するために必要なトレーニングデータの量が最小限であることから、ボイスフィッシングの影響を受けにくいユーザーであっても、AI を使用して自分の声を模倣するのに十分な音声をすでにオンラインで提供している可能性が高いと考えられます。

ますます多くの正当な音声複製アプリケーションが、悪用を防ぐためにモデルに保護機能を組み込んでいますが、ChatGPT などの他の生成 AI ツールは、そのような保護機能を備えていない悪意のあるモデルをブートストラップするために必要な技術的スキルを大幅に削減します。

AI音声クローンモデルのブートストラップ

AI モデルをゼロから構築して複製するには、かなりの時間と専門知識が必要ですが、オープンソースの事前トレーニング済みモデルが現在広く利用可能であり、信頼できるオーディオ サンプルを生成するために微調整する必要のないゼロショット音声複製モデルのブートストラップのハードルが低くなっています。

このシナリオでは、詐欺師はオープンソースの高性能録音ソフトウェアを使用して音声サンプルを録音することができます。これにより、複製された音声録音の信憑性を低下させる可能性のあるノイズや音声干渉を除去したり、オンライン録音やフィッシング通話から文脈から外れた少数の単語を使用して被害者のパスフレーズを編集したりすることができます。

録音はオープンソースのスピーカー エンコーダーにアップロードできます。これらのエンコーダーの中には、必要なライブラリのインストール、必要なモジュールのインポート、オーディオ サンプルのアップロード、合成するテキストを実行するコードの実行に必要なすべての機能を提供するものもあります。

とても簡単です。また、ChatGPT、AutoGPT などの生成 AI ツールにより、コーディング経験がほとんどない初心者でも独自のコードを記述できるようになり、日々簡単になっています。

対策の不十分さ

FTC のアドバイスと消費者や思想的リーダーからの高まる要望に従い、多くの合法的な音声クローン アプリケーションには現在、悪用を防ぐための対策が組み込まれています。しかし、音声複製の検出と詐欺防止に使用されている技術を詳しく調べてみると、それらは決して完璧なものではないことがわかります。これも:

  • ペイウォールアカウント: 市場で最も先進的な音声クローン作成アプリケーションの 1 つである ElevenLabs は最近、使用基準を引き上げる目的でアプリケーションの有料化を含む一連の変更を行いました。しかし、ElevenLabs のサブスクリプションは月額わずか 5 ドルからで、金融機関から数百万ドルを詐取するのに使用できるツールに対して詐欺師が支払う金額としては安いものです。
  • アプリケーションのモデレーション: 多くの音声複製アプリケーションは研究者によって管理されており、悪意を持って使用される可能性のある素材を生成するために使用されたアカウントにフラグを立てて削除しますが、この監視はリアルタイムで行われていません。つまり、詐欺師がアカウントにアクセスできなくなるのは、音声認識システムを回避する手段を手に入れた後になります。
  • 許可要件: 多くの音声複製ツールで使用される許可要件は大まかなものであり、ユーザーは、アプリケーションにアップロードされた音声を複製するために必要な権限と同意があることを示すボックスにチェックを入れることだけを求められます。これは、悪意のあるユーザーによって簡単に実行される可能性のあるアクションです。
  • デジタル透かし: VALL-E などの一部の音声クローン作成アプリケーションでは、クローンされた音声にラベルを付けてオリジナルの音声と区別できるツールが構築されているか、開発中です。しかし、多くの場合、これらのツールのリリースはテクノロジーのリリースに遅れをとったり、ソフトウェアに組み込まれなかったりします。
  • AI検出ツール: AI 生成コンテンツを検出するための Hive や Optic などのサービスが現在利用可能ですが、これらのサービスは、サンプルを元の話者からの膨大な量の音声と比較する場合に、はるかに効果的に機能することがよくあります。さらに、これらのツールは AI が進歩するたびに精度が低下し、AI ソフトウェアの新しいバージョンが猛烈なペースでリリースされ、更新されています。

結局のところ、これらのテクノロジーは、発展中の AI 環境や新たな音声詐欺技術によってもたらされるリスクを完全には考慮していません。これはつまり:

  • 対策ではフィッシングから保護できません: デジタル ウォーターマークは AI を使用して検出できますが、エンド ユーザーはフィッシング攻撃を検出するためにこれらの機能にアクセスできません。
  • 堅牢な検出を実行するのは困難です。 AI 音声複製および編集技術の向上のスピードは、検出方法が急速に時代遅れになることを意味しており、企業が検出ソフトウェアを統合および管理する必要性により、安全な音声認証を維持するためのコストと複雑さがさらに増大します。
  • 技術によって異なる検出方法が必要になります。 音声変換、テキスト読み上げ AI モデル、音声編集など、ディープフェイクの作成に使用できるさまざまな音声操作技術を検出するには複数のサービスが必要となり、検出方法の実装がさらに複雑になります。
  • 対策はブートストラップモデルに対しては効果がありません。 正当な企業は悪用を防ぐためのガードレールを開発するかもしれませんが、詐欺師が構築した AI モデルはそうしないため、こうした保護の有効性は低下します。

その結果、 FTCは最近、ディープフェイク時代の生成AIの危険性について警告を発し、専門家は音声認証サービスを提供する銀行に対し、よりセキュリティの強い別の認証モードに切り替えるよう推奨している。

「音声による『認証』を活用しているすべての組織は、多要素認証などの安全な本人確認方法に早急に切り替えることをお勧めします。」

— ソーシャルプルーフ・セキュリティのCEO、レイチェル・トバック氏、 Vice Motherboardより

進化する脅威にどう適応するか

銀行や金融機関が音声生体認証を信頼できなくなった場合、コールセンターで強力でスムーズな認証を可能にするためにどのような対策を講じることができるでしょうか?結局のところ、生成 AI における画期的な進歩により、階層化された検出機能によってのみ防止できる高度なプレゼンテーション攻撃が可能になります。これは、デバイスにバインドされた認証を、ユーザー ライフサイクル全体にわたるステップアップと保護のための追加の方法でラップすることを意味します。

Transmit Security は、次のようなネイティブに統合されたサービスの完全なスイートを通じてこれらの機能を提供します。

音声生体認証システムを交換する時期が来ました

結局のところ、音声スプーフィング防止技術は、音声クローニングに使用される技術に常に追いつくことになります。つまり、音声を検知してラベル付けするために必要なツールを開発する前に、まず新しい生成 AI モデルとバージョンが存在する必要があります。そのため、セキュリティおよびアイデンティティのリーダーは、音声認証情報を、ユーザーライフサイクル全体にわたる多層的な検出とステップアップで強化されたより強力な認証方法に置き換えることで、この増大する脅威に適応する必要があります。

Transmit Security Platform が音声生体認証システムの置き換えにどのように役立つかについて詳しくは、認証ID 検証検出と対応に関するサービス概要をご覧ください。または、今すぐ営業担当者に連絡して、無料の個別デモをご依頼ください。

Author