米国での著作権訴訟において、OpenAIに対しChatGPTのユーザーログ約2,000万件の提出を命じる司法判断が下されました。このニュースは単なる海外の訴訟問題にとどまらず、生成AIを利用する日本企業にとっても、入力データの取り扱いや法的リスク管理、そして「プロンプトは誰のものか」という根本的な問いを投げかけています。
NYタイムズ訴訟が浮き彫りにした「学習データ」と「出力」の関係
米国で進行中のニューヨーク・タイムズ(NYT)対OpenAIおよびMicrosoftの著作権侵害訴訟において、ニューヨーク連邦裁判所はOpenAIに対し、匿名化された約2,000万件のChatGPTユーザーログの提出を命じました。原告であるNYT側は、ChatGPTが同社の記事をそのまま「暗記(Memorization)」し、ユーザーの求めに応じてその内容をほぼ複製する形で出力していると主張しています。
この「司法によるログ提出命令」は、AIモデルが学習データをどのように保持し、出力しているかを検証するためのプロセス(ディスカバリー)の一環です。技術的な観点から言えば、LLM(大規模言語モデル)は本来、確率的に次の単語を予測する仕組みであり、データベースのように情報を検索して表示するものではありません。しかし、過学習(Overfitting)などにより、特定の学習データがそのまま出力されてしまう現象が確認されており、これが著作権侵害の証拠となり得るかが争点となっています。
企業利用における「プロンプト」の法的リスク
今回の命令で注目すべき点は、企業のAI活用における「入力データ(プロンプト)」の扱いです。提出されるログは匿名化されるとのことですが、AIベンダーが保有するログが、法的な争いの中で第三者(この場合は原告側の弁護士や専門家)の目に触れる可能性があるという事実です。
日本企業がChatGPTなどのパブリックなAIサービスを利用する場合、入力した情報がベンダー側のサーバーに記録されることは利用規約などで周知されています。しかし、それが将来的にベンダー側が巻き込まれる訴訟の「証拠」として提出されるリスクまでは、十分に想定されていないケースが多いのではないでしょうか。特に、機密情報や個人情報が含まれるプロンプトが、意図せずこうした法的手続きの対象に含まれてしまう可能性は、AIガバナンス上の新たな懸念材料と言えます。
日本の著作権法と実務上のギャップ
日本国内の文脈に目を向けると、日本の著作権法第30条の4は、AI開発(情報解析)目的での著作物利用に対して世界的に見ても寛容な規定を持っています。これにより、日本ではAIモデルのトレーニング自体は比較的自由に行える環境があります。
しかし、実務において重要なのは「学習」よりも「利用(生成・出力)」のフェーズです。生成されたコンテンツが既存の著作物に類似しており、かつ依拠性(元の著作物を知っていた、あるいは学習データに含まれていた)が認められれば、日本国内でも著作権侵害となる可能性があります。
今回の米国の事例は、「どのようなプロンプトを入力すれば、著作権侵害となる出力が得られるか」を検証する動きです。日本企業が自社サービスに生成AIを組み込む際、ユーザーが悪意を持って著作権侵害を誘発するようなプロンプトを入力し、そのログが残った場合、企業側がその管理責任を問われるリスクもゼロではありません。
日本企業のAI活用への示唆
今回のニュースは、AI活用のブレーキとなるものではなく、より洗練されたガバナンス体制を構築するためのきっかけと捉えるべきです。実務担当者や意思決定者は以下の3点を再確認することをお勧めします。
1. 入力データのフィルタリングと教育の徹底
従業員がAIに入力するデータの中に、自社の機密情報だけでなく、他社の著作権を侵害するような内容や、特定のコンテンツの複製を指示するようなプロンプトが含まれないよう、ガイドラインを策定し周知徹底する必要があります。また、API利用時における「ゼロデータリテンション(ログを学習に利用しない、保存期間を最小化する)」契約の活用も検討すべきです。
2. RAG(検索拡張生成)における引用元の管理
社内ドキュメントや特定の信頼できるソースを参照させるRAGシステムを構築する場合、参照元の権利関係をクリアにしておくことが重要です。AIが回答を生成する際、参照元の文章をそのまま表示することが著作権法上の「引用」の要件を満たしているか、あるいは社内利用の範囲に留まるかを確認する必要があります。
3. ベンダーリスクの再評価とマルチモデル戦略
特定のAIベンダー(今回はOpenAI)が法的な争争に巻き込まれた際、そのサービス提供が一時的に不安定になったり、仕様変更(特定の出力の制限など)が生じたりする可能性があります。ビジネス継続性の観点から、特定のモデルに過度に依存せず、必要に応じて他のLLMに切り替えられるようなシステム設計(マルチモデル対応)を視野に入れることが、長期的なリスクヘッジとなります。
