ブリタニカ百科事典とメリアム=ウェブスター辞典がOpenAIを提訴したニュースは、生成AIのデータ利用における法的リスクの複雑さを浮き彫りにしています。本記事では、このグローバルな動向を起点に、日本企業がAIを活用・開発する上で押さえるべき著作権の考え方と実務への示唆を解説します。
相次ぐコンテンツホルダーからAI企業への提訴
米国において、ブリタニカ百科事典およびメリアム=ウェブスター辞典の出版社が、ChatGPTを提供するOpenAIを提訴したことが報じられました。訴状によれば、大規模言語モデル(LLM)の学習データとして、またAIの知識ベースを補完し正確性を高める「グラウンディング」のプロセスにおいて、自社の知的財産が無断で利用されたと主張しています。
これまでも米ニューヨーク・タイムズ紙をはじめとするメディア企業や作家がAI企業を提訴するケースが相次いでいますが、今回の提訴は「正確で権威ある知識の源泉」として広く認知されている事典や辞書が対象となっている点で注目に値します。AIがもっともらしい嘘(ハルシネーション)を防ぐためには、こうした高品質なデータが不可欠である一方、そのデータの権利をいかに保護し、適正な対価を支払うべきかという議論が世界中で激化しています。
「学習」と「グラウンディング」に潜むリスクの違い
今回の提訴で注目すべきキーワードは「グラウンディング」です。グラウンディングとは、AIが回答を生成する際、外部の信頼できるデータベースなどを参照して事実関係を担保する技術(代表例としてRAG:検索拡張生成など)を指します。AIの事前学習(トレーニング)にデータを使う行為と、AIがユーザーの質問に答えるために外部データを検索・参照して出力に含める行為は、技術的にも法的にも異なる側面を持ちます。
日本国内に目を向けると、著作権法第30条の4(情報解析のための複製等の例外)により、原則として「情報解析」を目的としたAIの学習段階における著作物の利用は、海外に比べて柔軟に認められています。しかし、これはあくまで学習に関する規定です。RAGなどを通じて他社の著作物を直接的に参照し、既存のコンテンツと類似した内容をそのままユーザーに出力するようなシステムを構築した場合、日本国内であっても著作権侵害(複製権や翻案権の侵害)に問われるリスクが急激に高まります。自社プロダクトにRAGを組み込む開発現場においては、参照元のデータが適法に利用可能かどうかの確認が不可欠です。
自社データの保護と適正なライセンス契約の重要性
コンプライアンスやレピュテーション(評判)リスクに敏感な日本企業がAI事業を推進する際、こうした著作権リスクに対して「他社の権利を侵害しない」という守りの視点と、「自社の価値あるデータをどう守り活用するか」という攻めの視点の双方が求められます。
特に業務効率化や新規サービス開発において、外部のニュース記事、専門誌、辞書データなどをAIに連携させるニーズは高く存在します。この場合、Web上のデータを無断でスクレイピング(自動収集)して利用するのではなく、コンテンツホルダーとAPI利用契約やライセンス契約を締結し、適法かつ安全なデータパイプラインを構築することが推奨されます。実際に国内でも、メディア企業とAI企業が公式に提携し、権利処理がクリアな形で高品質なデータをAIに提供するビジネスモデルが広がりつつあります。
日本企業のAI活用への示唆
今回の提訴事例から、日本の意思決定者やプロダクト担当者が得られる実務的な示唆は以下の3点に集約されます。
1つ目は、AI開発における「データソースの透明性」の確保です。自社のAIシステム(特にRAGを利用したプロダクト)が、どこからデータを取得し、どのようなルールで出力しているかを、開発・エンジニアチームと法務部門が密に連携して可視化・監査できる体制を整える必要があります。
2つ目は、日本の法規制に関する正確な社内認識の醸成です。著作権法第30条の4における「享受目的が併存する場合は適用されない」という例外規定を正しく理解し、「学習に使うのは適法でも、出力や提供方法によっては違法になり得る」という境界線を実務者間で共有することが重要です。
3つ目は、自社資産の再評価と保護です。独自の社内マニュアル、研究データ、長年蓄積したノウハウなどは、AI時代において極めて価値の高いデータです。これらのデータが意図せず外部のAIモデルに学習・利用されないよう、Webサイトの利用規約の改定や技術的なクローリング防止策(robots.txtの設定など)を適宜講じることが、これからのAIガバナンスにおける基本となります。
