米WIRED誌の報道によると、GoogleのGeminiやOpenAIのChatGPTといった主要な生成AIにおいて、人物画像の衣服を排除し水着姿に変える「脱衣」テクニックが依然として有効であることが確認されました。この事実は、AIモデルの安全対策(ガードレール)が決して完璧ではないことを示しています。日本企業が画像生成AIをビジネスに導入する際、直視すべきリスクとガバナンスのあり方について解説します。
安全対策をすり抜ける「ジェイルブレイク」の現実
生成AIの開発競争において、安全性への配慮は最優先事項の一つとされています。GoogleやOpenAIなどの主要ベンダーは、暴力表現や性的コンテンツの生成を防ぐため、厳格なフィルタリング機能や「ガードレール」と呼ばれる安全機構を実装しています。しかし、WIRED誌が実施したテストによれば、特定のプロンプト(指示文)を工夫することで、着衣の女性の写真を水着姿に加工させることが可能であることが判明しました。
これは技術的には「ジェイルブレイク(脱獄)」や「敵対的プロンプト」と呼ばれる手法の一種です。AIに対して直接的な性的表現を求めると拒否されますが、文脈を偽ったり、複雑な論理パズルの中に指示を隠したりすることで、AIの倫理フィルターを回避する手法です。この事実は、企業が「大手ベンダーのモデルを使っているから安全だ」と盲目的に信じることが危険であることを示唆しています。
日本国内における法的・倫理的リスク
日本企業がこのような生成AI機能をプロダクトに組み込んだり、社内業務で利用したりする場合、いくつかの固有のリスクが浮上します。
まず、法的リスクです。日本では肖像権やプライバシー権の保護意識が高く、本人の同意なく画像を加工し、それが性的・侮辱的な文脈で使用されれば、名誉毀損や権利侵害として訴訟リスクに直面します。特に、自社が提供するサービス(例えば、アバター作成や画像編集アプリ)の裏側でAPIとしてLLMを利用している場合、ユーザーがその脆弱性を悪用して他者の権利を侵害した際、プラットフォーマーとしての企業の管理責任が問われる可能性があります。
また、組織文化やコンプライアンスの観点からは「セクシャルハラスメント」の新たな形態として警戒が必要です。社内ツールとして画像生成AIを導入した際、従業員が悪ふざけで同僚の画像を加工するといった事案が発生すれば、深刻なハラスメント問題に発展します。AI生成物はリアリティが高いため、従来のコラージュ画像以上に被害者の精神的苦痛が大きく、企業の監督責任も厳しく問われるでしょう。
ベンダー依存からの脱却と独自のガードレール
今回の事例が示す教訓は、モデル自体の安全性は常に「いたちごっこ」であるという点です。ベンダー側も修正パッチを当て続けますが、攻撃側も新たなプロンプトを開発します。したがって、日本企業が実務でAIを活用する場合、モデル提供元の対策だけに依存するのは不十分です。
実務的な対策としては、APIとエンドユーザーの間に、独自のフィルタリング層(中間レイヤー)を設けることが推奨されます。例えば、Azure AI Content Safetyのようなモデレーション専用のAPIを併用したり、日本語特有の隠語や文脈に対応したNGワードリストを自社で管理したりするアプローチです。また、生成された画像に対しても、公開前に画像解析AIで肌の露出度や不適切な要素がないかを二次チェックする仕組みを組み込むことで、リスクを大幅に低減できます。
日本企業のAI活用への示唆
今回の報道を受け、日本企業がAI戦略やガバナンスにおいて考慮すべきポイントを整理します。
1. 「100%の安全性」はない前提での設計
最新モデルであっても、意図的な悪用を完全に防ぐことは不可能です。サービス開発においては、「悪用された場合にどう検知し、どう遮断するか」というフェイルセーフの設計を必須要件とするべきです。
2. 利用規約とガイドラインの明確化
社内利用・対外サービス問わず、生成AIを用いた画像の加工に関する禁止事項(特に他者の尊厳を傷つく行為)を規約に明記してください。また、万が一インシデントが発生した際の責任分界点を法務部門と事前に協議しておくことが重要です。
3. 独自モデレーションの導入検討
特にエンターテインメントやUGC(ユーザー生成コンテンツ)を扱うサービスでは、モデル標準のフィルターに加え、日本国内の文脈や自社のブランド基準に合わせた独自のコンテンツモデレーション体制(AIによる自動判定+必要に応じた有人監視)への投資が必要です。
生成AIは強力なツールですが、その出力制御には依然として不確実性が残ります。技術の進化を享受しつつも、日本社会の商習慣や倫理観に合わせた「手綱」を握り続けることが、持続可能なAI活用の鍵となります。
