生成AIが生成する文章に、小説特有の表現である「エムダッシュ(—)」が頻出するのはなぜか。その背景には、著作権で保護された膨大な書籍データが学習に使われているという事実があります。本稿では、AIの「文体」から見える学習データのリスクと、日本の著作権法や商習慣を踏まえた企業の実務的な対応策について解説します。
AIの「癖」はどこから来るのか:学習データの偏り
最近、ロサンゼルス・タイムズに掲載された記事「AI生成テキストのエムダッシュ(—)は私のせいかもしれない」という寄稿が話題を呼びました。著者は、自分の書いた書籍が許可なくAIの学習データに含まれ、その結果、小説などの文芸作品で頻繁に使われる「エムダッシュ(文の途中で補足や強調を入れる際に使う長い横棒)」という記号が、AIの生成文に不自然なほど多用されるようになったと指摘しています。
これは単なる記号の問題ではありません。大規模言語モデル(LLM)が、インターネット上のオープンデータだけでなく、Books3と呼ばれる海賊版データセットなどを通じて、著作権保護された現代小説やノンフィクションを大量に「学習」していることを示唆する現象です。AIが人間らしい流暢な文章を書けるのは、こうしたプロの作家によるテキストを栄養源としているからに他なりません。
「ブラックボックス化」する学習データと法的リスク
現在、OpenAIのGPT-4やGoogleのGemini、AnthropicのClaudeといった主要な商用モデルは、具体的な学習データセットの詳細を公開していません。これを「ブラックボックス」問題と呼びます。米国では、ニューヨーク・タイムズや作家ギルドが集団訴訟を起こしており、学習データの適法性が大きな争点となっています。
一方、日本国内に目を向けると、状況は少し異なります。日本の著作権法第30条の4は、AI学習のための情報解析において、原則として著作権者の許諾なく著作物を利用できると定めており、世界的に見ても「AI開発に親和的な法制度」とされています。しかし、これはあくまで「日本国内で閉じた開発・利用」や「著作権者の利益を不当に害さない範囲」という前提があります。
日本企業が注意すべきは、グローバル展開や倫理的リスクです。日本法で適法であっても、そのAIモデルやサービスを海外で展開する場合、現地の法令(例:EU AI法や米国の訴訟動向)の影響を受ける可能性があります。また、クリエイターや権利者への配慮を欠いたAI利用は、炎上リスクやブランド毀損につながる「レピュテーションリスク」を孕んでいます。
ビジネス文書における「文体」の不一致
学習データに小説が多く含まれているということは、出力されるテキストの「文体」にも影響を与えます。小説的なレトリックやドラマチックな表現は、日本のビジネス現場で求められる「簡潔・正確・礼儀正しい」文書とは相性が悪い場合があります。
例えば、AIに議事録の要約や日報の作成を依頼した際、妙に情緒的な表現が混ざったり、翻訳調の不自然な日本語になったりするのは、学習データの偏りが原因の一つです。日本企業が実務でAIを活用する場合、汎用モデルをそのまま使うだけでは、日本の商習慣にそぐわない出力になることが多いのです。
日本企業のAI活用への示唆
以上の背景を踏まえ、日本企業の意思決定者やエンジニアは以下の3点を意識してAI活用を進めるべきです。
1. 学習データの出所と利用規約の確認
利用するLLMがどのようなデータで学習されたか(公開されている範囲で)把握し、特に商用利用時の入力データが再学習に使われない設定(オプトアウト)になっているかを確認してください。Azure OpenAI Serviceなどのエンタープライズ版を利用することで、データガバナンスを担保するのが定石です。
2. RAG(検索拡張生成)による「自社文脈」の注入
汎用モデルの「小説的な癖」や「ハルシネーション(もっともらしい嘘)」を抑制するために、RAG(Retrieval-Augmented Generation)の技術活用が必須です。社内の規定集や過去の良質な報告書を知識ベースとして参照させることで、AIの出力を自社のビジネスルールやトーン&マナーに適合させることができます。
3. 「法的に白」でも「倫理的に安全」かを見極める
日本の著作権法だけに頼るのではなく、ステークホルダーへの説明責任を果たせるかという視点を持つことが重要です。特にクリエイティブ産業に関わる企業が生成AIを利用する場合、権利侵害のリスクだけでなく、クリエイターコミュニティとの関係性にも配慮したガイドライン策定が求められます。
