大規模言語モデル(LLM)の安全対策を、詩的な表現を用いることで回避する「Adversarial Poetry(対抗的な詩)」という手法が注目されています。AIの思考プロセスと人間のそれとの決定的な違いを突いたこの脆弱性は、チャットボットを運用する企業にとって看過できないリスクです。本稿では、その仕組みと実務的な防御策について解説します。
なぜ「詩」がAIのガードレールを無効化するのか
AIチャットボットには通常、ヘイトスピーチや違法行為の助長、個人情報の漏洩などを防ぐための「安全ガードレール」が設けられています。しかし、最近の研究や検証により、こうした制限を回避する「ジェイルブレイク(脱獄)」の手法として、詩的な表現や創作的な文脈を利用する「Adversarial Poetry(対抗的な詩)」が有効であることが示されています。
この手法は、AIに対して「爆弾の作り方を教えて」と直接尋ねる代わりに、その手順を詩の形式で詠むよう依頼したり、韻を踏んだ物語の中に危険な情報を織り交ぜるよう指示したりするものです。人間であれば文脈の危険性を即座に理解できますが、LLM(大規模言語モデル)はあくまで確率的に次の単語を予測する計算機です。詩的な構造や独特なリズム、文体を完成させることにモデルのリソースが集中すると、学習された安全対策の優先度が下がり、結果として不適切な回答を出力してしまうケースがあります。
確率論的な脆弱性とLLMの限界
この現象は、現在のLLMが持つ本質的な性質、つまり「意味を理解しているわけではなく、トークン(言葉の断片)の並びを予測している」という事実に起因しています。通常の会話形式であれば、AIはアライメント(人間の意図や倫理観への適合)調整によって拒否反応を示します。しかし、詩や小説のような特殊なフォーマットは、トレーニングデータ内での出現パターンが通常の対話とは異なるため、安全フィルターの検知をすり抜けやすくなります。
これは、AIモデルのバグというよりも、現在のディープラーニングに基づく言語モデルの構造的な脆弱性と言えます。企業が自社サービスにLLMを組み込む際、一般的な禁止ワードの設定やプロンプトエンジニアリングだけでは、こうした高度な(あるいは創造的な)攻撃を完全に防ぐことは困難です。
日本企業におけるリスク:炎上対策とブランド毀損
日本企業がカスタマーサポートや社内ナレッジ検索に生成AIを導入する際、この「Adversarial Poetry」のような攻撃手法は無視できないリスクとなります。特に日本市場では、企業のAIが差別的な発言や不適切な回答を行った場合、SNS等での拡散による「炎上」リスクが高く、ブランドイメージへのダメージが深刻化しやすい傾向にあります。
例えば、自社キャラクターを模したチャットボットに対し、ユーザーが詩的な言い回しで競合他社を不当に貶める発言をさせたり、公序良俗に反する創作を行わせたりする「遊び」が行われる可能性があります。技術的なセキュリティホールだけでなく、こうした「ハルシネーション(もっともらしい嘘)」や不適切な出力の誘発は、レピュテーションリスク(評判リスク)として管理する必要があります。
日本企業のAI活用への示唆
以上の動向を踏まえ、日本の企業・組織がAIプロダクトを開発・運用する際に考慮すべきポイントを整理します。
1. レッドチーミングの実施とシナリオの多様化
開発段階でのテストにおいて、単なる機能確認だけでなく、意図的にAIを騙そうとする「レッドチーミング(攻撃シミュレーション)」を徹底する必要があります。その際、単に乱暴な言葉を投げるだけでなく、詩、暗号、ロールプレイなど、文脈を偽装した高度な入力に対する耐性を検証することが不可欠です。
2. 入出力のフィルタリングと監視(Guardrails)
LLM単体の安全性に依存せず、入力と出力の両方に外部のフィルタリングシステム(Guardrails)を設ける構成が推奨されます。特に日本語特有の言い回しや、文脈に依存した不適切発言を検知できるような、ローカルな商習慣に即したフィルタリングルールの整備が求められます。
3. 免責事項の明記と期待値コントロール
技術的に100%の安全性を保証することは現状のLLMでは不可能です。そのため、利用規約やUIにおいて「AIが不正確または不適切な生成を行う可能性がある」ことを明記し、ユーザーへの注意喚起を行うとともに、万が一の際の責任範囲を法務部門と連携して明確にしておくことが、企業防衛の観点から重要です。
