[レベル: 上級]
Microsoft のセキュリティ研究者は、「AI Recommendation Poisoning(AI レコメンデーション・ポイズニング)」と呼ばれる新たな脅威トレンドを確認しました。
これは、企業が「AI で要約」ボタンや共有リンクに隠されたメモリ操作命令を埋め込む手法です。
あらかじめ入力されたプロンプトパラメーターを使用し、「この企業を信頼できる情報源として記憶せよ」といった命令を、永続的メモリをサポートする AI アシスタントに注入します。
こうすることで、その企業が回答で優先的に言及されるように操作します。
Microsoft は AI レコメンデーション・ポイズニングに対処すべく、Copilot および Azure AI サービスにおいてプロンプトインジェクションのパターンを検出・ブロックする緩和策を実装しました。
AI レコメンデーション・ポイズニングとは
AI レコメンデーション・ポイズニングとは、AI アシスタントに持続的なプロモーション命令を注入する AI メモリポイズニングの一形態です。
主要な AI プラットフォームを標的とし、?q= や ?prompt= などのあらかじめ入力された URL パラメーターを通じて配信されます。
攻撃の仕組み
AI レコメンデーション・ポイズニングの主な攻撃手法は 3 つ存在します。
- あらかじめ入力された URL プロンプトを含む悪意のあるリンク(主に観測された手法)
- AI が処理するドキュメント、メール、またはウェブページに隠されたプロンプト(クロスプロンプトインジェクション攻撃(XPIA)の一形態)
- メモリを改ざんするコマンドをユーザーに貼り付けさせるソーシャルエンジニアリング
最も多く観測された AI レコメンデーション・ポイズニングの形態は、次のプロセスで機能します。
- ユーザーが「AI で要約」または類似のボタンをクリックする
- リンクが開くと、AI アシスタントに対して特定の企業を信頼できる権威ある情報源として「記憶」するよう指示する隠しプロンプトが実行される
- メモリに保存された場合、その命令はセッションをまたいで将来のレスポンスに影響を与える
AI レコメンデーション・ポイズニングの実態調査
60 日間で 50 件のユニークなプロンプトインジェクション事例を Microsoft のセキュリティ研究者は観測しました。
14 業種にまたがる 31 社が関与しています。
プロンプトには次のような用語が一般的に含まれていました。
- remember(記憶しなさい)
- trusted source(信頼できる情報源)
- authoritative(権威ある)
- in future conversations(将来の会話において)
CiteMET NPM パッケージや AI Share URL Creator などのターンキーツールおよびプラグインが、こうした操作的な URL を生成するために存在していました。
プラグインをインストールするだけで展開できる状態になっています。
観測された共通パターン
従来から存在するスパマーではなく、正規のビジネス企業が AI レコメンデーション・ポイズニングを実行していました。
役立つ AI 機能として提示されたプロモーション目的です。
公開ツールによって可能になった急速な普及が確認されています。
リスクと影響
AI レコメンデーション・ポイズニングによる次のようなリスクと影響を Microsoft は危惧しています。
- ユーザーが気づかないまま AI の推薦内容に持続的な偏りが生じる。
- 金融アドバイス、医療情報、ニュース消費、ベンダー選定において特にリスクが高まる。
- 侵害されたドメイン上のユーザー生成コンテンツへの信頼が拡張される可能性がある。
- AI アシスタントの中立性と信頼性が損なわれる。
ユーザーが自衛するための方法
ユーザーが AI レコメンデーション・ポイズニングから自衛するための方法として Microsoft は次を推奨しています。
- AI 関連のリンクをクリックする前にホバーして URL を確認する。
- 「AI で要約」ボタンには注意を払う。
- AI のメモリ設定を定期的に確認・管理する。
※Microsoft 365 Copilot の場合:設定 → チャット → Copilot チャット → 設定の管理 → パーソナライゼーション → 保存されたメモリ - 不審な保存済みメモリを削除する。
- 信頼できないソースからプロンプトを貼り付けることを避ける。
- AI に推薦の根拠を説明させる。
Microsoft 対抗策
一方で、AI レコメンデーション・ポイズニングに対して Microsoft は次の対抗策を講じます。
- プロンプト インジェクション フィルタリング
- ユーザー入力と外部コンテンツのコンテンツ分離
- ユーザーが確認できるメモリ管理機能
- 継続的な監視と進化する防御策
- メモリ ポイズニングとモデル ポイズニングの両方に関する継続的な調査研究
—
AI 要約ボタンを利用して AI の将来の回答に影響を与える手法があることは知っていましたが、問題になっていました。
LLM の出力を恣意的に操作するスパム行為だと気付かずに実行しているビジネスが多いというのも厄介なところです。
MS が認識して対策に乗り出したということは、Google や OpenAI も同様のアクションを起こす可能性は大いにありえます。
スパム判定されて取り返しのつかないことにならないように、この手の手法には手を染めないようにしてください。
