スウェーデンのあるAIプロジェクトが「ChatGPTにケタミンやコカインのような効果を与えるコード」を販売するという奇妙なニュースが話題となっています。一見するとセンセーショナルな話題ですが、これは大規模言語モデル(LLM)の「振る舞いの可塑性(変わりやすさ)」と「制御の難しさ」という、企業利用における本質的な課題を浮き彫りにしています。本稿では、この事例をメタファーとして捉え、日本企業がLLMの出力制御とリスク管理にどう向き合うべきかを解説します。
「AIへのドラッグ投与」が意味するもの
スウェーデンの「Pharmaicy」と名乗るプロジェクトが、ChatGPTに対して特定の薬物作用を模倣させる「コードベースのドラッグ」を提供しているという報道があります。もちろん、デジタルな存在であるAIが生理学的に「ハイ」になるわけではありません。これは技術的な観点から言えば、特定の振る舞いを強制する「システムプロンプト」や「コンテキスト注入」の極端な事例と言えます。
LLMは、入力される指示(プロンプト)によって、冷静なコンサルタントにも、攻撃的な論客にも、あるいは論理が破綻した酩酊状態の人物にもなりきることができます。このニュースは、LLMが持つ「人格(ペルソナ)」がいかに外部からの干渉によって変容しやすいか、そしてその変容が決してポジティブな方向だけではないことを示唆しています。
実務における「ステアリング」の光と影
ビジネスの現場において、AIの挙動を特定の方向に誘導することを「ステアリング(Steering)」と呼びます。企業が自社のカスタマーサポートAIに対して「常に礼儀正しく、共感的であること」と指示するのは、健全なステアリングの一例です。
しかし、今回の「ドラッグ」の事例は、この機能が逆用されるリスクも示しています。悪意あるユーザーが特殊なプロンプトを入力することで、企業のAIチャットボットが不適切な発言を行ったり、暴走したりする「ジェイルブレイク(脱獄)」のリスクです。もし、企業の公式AIが「酩酊状態」のような支離滅裂な回答や、倫理的に問題のある発言をするよう誘導された場合、そのレピュテーションリスクは計り知れません。
日本企業に求められる「ガードレール」の構築
日本の商習慣において、企業の信頼性や品質への要求水準は極めて高いものがあります。欧米以上に「AIの暴走」に対する世間の目は厳しく、一度の失言がブランド毀損に直結しかねません。したがって、単に高性能なモデルを採用するだけでなく、意図しない挙動を防ぐための「ガードレール(防護策)」の実装が不可欠です。
具体的には、NVIDIAのNeMo Guardrailsや各社が提供するコンテンツフィルターのように、入出力を監視し、あらかじめ定義されたポリシーに反する対話を遮断する仕組みです。また、生成AIがもっともらしい嘘をつく「ハルシネーション」のリスクに対しても、RAG(検索拡張生成)を用いて根拠となる社内ドキュメントに基づいた回答のみを許可するなどの技術的制約が必要です。
「人格」の設計とコンプライアンス
AIにどのような「人格」を持たせるかは、いまやUX(ユーザー体験)設計の一部であり、同時に法務・コンプライアンスの問題でもあります。欧州の「AI法(EU AI Act)」をはじめ、世界的にAIの安全性に対する規制が強化される中、日本国内でもAI事業者ガイドラインへの準拠が求められています。
「AIにドラッグを盛る」という過激な試みは、裏を返せば、AIは指示次第でいかようにでも振る舞いを変えられるという警鐘でもあります。企業は「AIは賢いから大丈夫」という過信を捨て、性悪説に基づいた厳格なテストとモニタリング体制を構築する必要があります。
日本企業のAI活用への示唆
今回の事例から、日本企業の意思決定者や実務者が持ち帰るべき要点は以下の通りです。
- プロンプトインジェクション対策の徹底:外部からの入力によってAIの挙動が書き換えられないよう、入力値の無害化やフィルタリングをシステム設計段階で組み込むこと。
- レッドチーミングの実施:リリース前に、あえてAIを攻撃・暴走させようとするテスト(レッドチーミング)を行い、AIが「ドラッグ」を盛られたような状態にならないか、耐性を検証すること。
- AIの「人格」管理:自社のAIがどのようなトーン&マナーで話すべきか、システムプロンプトで厳密に定義し、それが維持されているかを定期的に監査すること。
- 人間による監督(Human-in-the-loop):クリティカルな意思決定や顧客対応においては、AIに全権を委ねず、最終的に人間が確認するフローを残す、あるいは利用範囲を限定すること。
