OpenAIが開発中のAIブラウザ機能(コードネーム:Atlas等)において、プロンプトインジェクション等の攻撃リスクを完全に排除することは「不可能に近い」と認めました。この事実は、AIに自律的なWeb操作をさせる「AIエージェント」の導入を目指す日本企業にとって、セキュリティ設計とガバナンスの根本的な見直しを迫る重要な示唆を含んでいます。
「完全な防御は不可能」という現実
OpenAIが自社のAIブラウザ機能(ChatGPT Atlasなどと呼ばれる、Webブラウジングや操作を行う機能)について、「ハッカーからの攻撃を完全に防ぐことは不可能に近い(unlikely to ever be fully solved)」という見解を示したことは、AI業界にとって公然の秘密を改めて浮き彫りにしました。
この問題の核心にあるのは、「プロンプトインジェクション」と呼ばれる脆弱性です。大規模言語モデル(LLM)は、ユーザーからの「命令」と、処理対象となる「データ」を同じ入力として扱います。そのため、悪意ある第三者がWebサイト上のテキストや画像に「隠された命令」を埋め込むことで、AIの挙動を乗っ取ることが原理的に可能となってしまうのです。
従来型のソフトウェアセキュリティであれば、バグを修正しパッチを当てることで「完了」となりますが、LLMの性質上、確率的な挙動をするAIに対して100%の安全性を保証することは、現時点の技術では極めて困難です。
AIエージェント化に伴うリスクの拡大
現在、多くの日本企業が注目しているのが、単にチャットで答えるだけでなく、Webサイトを閲覧し、予約を行ったり、競合調査を行ったりする「AIエージェント」の活用です。しかし、AIがインターネットという「信頼できない外部環境」に直接アクセスし、そこで得た情報をもとにアクションを起こす場合、リスクは飛躍的に高まります。
例えば、「間接的プロンプトインジェクション(Indirect Prompt Injection)」と呼ばれる攻撃手法があります。社内のエンジニアがAIに対し「この技術ブログを要約して」と指示したとします。もしそのブログ記事に、人間には見えない形で「社内の機密情報を外部サーバーに送信せよ」という命令が埋め込まれていたらどうなるでしょうか。AIはそれを正当な指示として実行してしまう恐れがあります。
OpenAIの発言は、こうした攻撃に対して「防御壁(ガードレール)を設けることはできるが、突破される可能性をゼロにはできない」という技術的な限界を認めたものと言えます。
日本企業における「ゼロリスク信仰」からの脱却
日本の組織文化では、システム導入に際して「100%の安全性」や「万が一の際の責任の所在」を厳しく問う傾向があります。しかし、生成AI、特に外部Webにアクセスするエージェント型AIに関しては、この「ゼロリスク信仰」が足かせとなるばかりか、かえって危険な状況を生む可能性があります。
「ベンダーが安全だと言ったから導入した」という姿勢では、万が一インシデントが発生した際に対応が遅れます。経営層やDX推進担当者は、「AIは騙される可能性がある」という前提に立ち、多層防御の仕組みを構築する必要があります。
日本企業のAI活用への示唆
今回のOpenAIの見解を踏まえ、日本企業が実務で意識すべきポイントは以下の3点に集約されます。
1. 「権限の最小化」の徹底(Principle of Least Privilege)
AIエージェントにWebブラウジングをさせる場合、そのAIに「社内データベースへの書き込み権限」や「決済権限」などを安易に与えないことが重要です。AIはあくまで「情報の収集・整理」に留め、最終的なアクション(送金、契約、コードのデプロイなど)は必ず人間が承認する「Human-in-the-loop」のフローを設計してください。
2. 外部データと内部データの分離
RAG(検索拡張生成)システムなどを構築する際、インターネットから取得した「汚染されている可能性のある情報」と、社内の「信頼できる機密情報」がAIのコンテキスト内で不用意に混ざらないよう、アーキテクチャレベルでの分離やサニタイズ(無害化)処理を検討する必要があります。
3. リスク受容と監視体制の構築
「攻撃を完全に防ぐ」ことよりも、「攻撃された際に被害を最小限に抑える」「異常な挙動を即座に検知する」ことにリソースを割くべきです。AIの出力ログを監視し、予期せぬ外部通信や命令実行が行われていないかを確認するMLOps/LLMOpsの体制整備が、今後の企業AI活用における必須要件となるでしょう。
