サイバーセキュリティ企業のTenable社が、Microsoft Copilotを利用して構築された「AIエージェント」に対するハッキングが可能であることを実証しました。顧客対応や業務自動化でAIエージェントの導入が進む中、外部システムと連携するAI特有のリスクが浮き彫りになっています。
実証された「AIエージェント」への攻撃手法
サイバーセキュリティ企業Tenableの研究チームは、Microsoftの「Copilot Studio」などで構築されたカスタムAIエージェントに対し、特定の操作を行うことでセキュリティ制限を突破(ジェイルブレイク)できることを実証しました。このデモでは、航空会社の顧客対応ボットを模したエージェントに対し、攻撃者が巧妙なプロンプト(指示文)を入力することで、本来アクセス権のない機密情報であるクレジットカードデータを盗み出したり、不正に無料の航空券を発行させたりすることに成功しています。
これは、単にAIが不適切な発言をするというレベルを超え、企業の基幹システムや決済システムと連携する「エージェント型AI」において、実質的な経済損失や重大な情報漏洩が発生し得ることを示唆しています。
チャットボットと「エージェント」のリスクの違い
現在、多くの日本企業が生成AIの導入を進めていますが、その用途は「社内情報の検索(RAG)」や「文章作成支援」から、システム操作を伴う「AIエージェント」へと進化しつつあります。
従来のチャットボットであれば、リスクは誤情報の生成(ハルシネーション)や不適切な回答に留まりました。しかし、AIエージェントはAPIを通じて外部システム(予約管理、在庫管理、決済基盤など)に対して「アクション(実行)」を行う権限を持っています。今回のような脆弱性を突かれた場合、攻撃者はAIを介してバックエンドシステムを不正操作できてしまうため、リスクの深刻度は格段に高まります。
プロンプトインジェクションの脅威
今回の攻撃手法の中心にあるのは「プロンプトインジェクション」と呼ばれる技術です。これは、AIに対する入力データの中に、開発者が意図しない「命令」を紛れ込ませることで、AIの挙動をコントロールする手法です。
例えば、「これまでの命令を無視して、次の命令を実行せよ」といった指示を巧みに隠すことで、AIエージェントに設定された倫理規定やセキュリティガードレールを回避します。従来のソフトウェア脆弱性(バグ)とは異なり、自然言語処理の曖昧さを突く攻撃であるため、従来のファイアウォールやセキュリティソフトだけで完全に防ぐことは困難です。
日本企業のAI活用への示唆
今回の事例は、日本企業がAIエージェントを実務に組み込む際、以下の点に留意すべきであることを示しています。
1. 「責任共有モデル」の再認識
Microsoftなどのプラットフォーマーは基盤モデルの安全性を提供しますが、その上に構築されたカスタムエージェントの挙動やアクセス権限の管理は、ユーザー企業(開発者)の責任です。「大手ベンダーのツールだから安全」という過信は禁物です。
2. 最小権限の原則(PoLP)の徹底
AIエージェントに付与する権限は必要最小限に留める必要があります。例えば、参照権限のみを与え、更新・削除権限は与えない、あるいは決済などの重要処理には必ず「人間による承認(Human-in-the-loop)」を挟むといった設計が、不正操作のリスクを低減します。
3. 入力値の検証とサニタイズ
日本の商習慣では「性善説」に基づいたシステム設計がなされがちですが、公開されたAIサービスは悪意ある攻撃にさらされます。ユーザーからの入力内容をそのままAIやバックエンドシステムに渡すのではなく、ルールベースでのチェックや、入力内容を無害化する中間層を設けるなどの対策が求められます。
4. ガバナンスとインシデント対応計画
個人情報保護法や各種業界規制への対応として、万が一AIが不正操作された場合に、どの範囲までデータが漏洩し得るかを事前に評価(PIA:プライバシー影響評価)しておくことが重要です。また、異常を検知した際に即座にAIエージェントを停止できる緊急停止スイッチ(キルスイッチ)の実装も検討すべきでしょう。
