米国で歴史ある百科事典・辞書出版社がOpenAIを著作権侵害で提訴しました。生成AIが学習データを「暗記」しそのまま出力してしまう問題は、日本企業がAIを業務活用やプロダクト開発に組み込む際にも看過できないリスクを含んでいます。
老舗出版社によるOpenAI提訴の背景
百科事典で知られるEncyclopedia Britannica(ブリタニカ)と、著名な英語辞書を展開するMerriam-Webster(メリアム・ウェブスター)が、ChatGPTを開発する米OpenAIに対して著作権侵害の訴訟を提起しました。この訴訟の焦点となっているのは、生成AIが両社の保有する膨大なコンテンツを無断で学習し、さらにはそれを「暗記(Memorizing)」してユーザーのプロンプト(指示)に応じてそのまま出力しているという主張です。
大規模言語モデル(LLM)は、インターネット上の膨大なテキストデータを読み込み、言葉の確率的なつながりを学習することで自然な文章を生成します。通常、AIは元の文章の意図を汲み取りながら新たな文章を構成しますが、特定のデータが過剰に学習された場合や、固有の表現が含まれる場合、元の学習データをほぼそのまま出力してしまう「暗記(Memorization)」と呼ばれる現象が起こることが知られています。ニューヨーク・タイムズなど報道機関による訴訟に続き、正確で体系化された「知識の宝庫」である事典・辞書出版社もAI企業との対立姿勢を鮮明にした形です。
辞書・事典データ特有の問題と著作権の境界
一般的に、歴史的事実や一般的な単語の意味といった「事実(ファクト)やアイデア」そのものには著作権は発生しません。しかし、それをどのように説明するかという「表現」には著作権が認められます。辞書や百科事典は、事実をわかりやすく、かつ独自の視点で体系的に記述した表現の集積です。
AIが「ある出来事の事実」を回答すること自体は問題になりませんが、ブリタニカ特有の解説文の構造や表現をそのまま出力してしまうと、著作権侵害(複製権や翻案権の侵害)に該当するリスクが高まります。企業が自社のプロダクトやサービスに生成AIを組み込む際、意図せず第三者のコンテンツをそのままユーザーに提供してしまう可能性があることは、プロダクト担当者やエンジニアにとって重要な懸念事項と言えます。
日本の法規制とガバナンスの現状
日本においては、著作権法第30条の4により、情報解析(AIの機械学習など)を目的とする場合、原則として著作物の利用が柔軟に認められています(ただし、著作権者の利益を不当に害する場合を除きます)。この点は、AI開発において世界的に見ても有利な環境とされています。しかし、これはあくまで「学習段階」の話であり、「出力段階」において既存の著作物と類似したコンテンツが生成され、それが利用された場合には、通常の著作権侵害として扱われます。
文化庁等の議論でも、学習データの「暗記」による出力は、依拠性(元の作品を知っていて真似たこと)が認められやすく、権利侵害のリスクが高いと指摘されています。日本企業がAIを利用して新規事業やオウンドメディアのコンテンツ制作、社内業務の効率化を進める際、「AIが生成したものだから安全」という認識は改める必要があります。出力結果に第三者の著作物が紛れ込んでいないかを確認するプロセスや、生成AIの出力内容をそのまま外部に公開しないといったルール作り(AIガバナンス)が不可欠です。
日本企業のAI活用への示唆
今回の提訴は、AIの学習データと著作権をめぐる議論が新たな段階に入ったことを示しています。日本企業が安全にAIを活用するために、以下の点に留意することが求められます。
第一に、出力リスクの管理とプロンプトの工夫です。AIを業務利用する際は、特定の著作物や著者を指定して「〇〇のように書いて」といった指示を避けるなど、社内ガイドラインを策定・徹底することが重要です。また、自社プロダクトにAIを組み込む場合は、出力フィルターを設けるなどの技術的な安全対策も検討すべきです。
第二に、RAG(検索拡張生成:外部データとAIを連携させる技術)の適切な運用です。一般的な知識についてはLLMの基盤モデルに依存しつつ、専門的・機密性の高い回答が必要な場合は、自社の社内規定や独自のナレッジベースのみをAIに参照させるRAG構成を採用することが推奨されます。これにより、外部の著作権侵害リスクを低減させつつ、正確性の高い業務支援システムを構築できます。
AIの進化とビジネスへの浸透は目覚ましい一方で、法的な枠組みや権利者との調整は現在進行形で行われています。グローバルな訴訟動向を注視しつつ、自社のコンプライアンス体制とプロダクト設計を柔軟にアップデートしていく姿勢が、これからのAI活用には不可欠です。
