ChatGPTは回答生成時に、実際に引用する数の約6倍ものWebページを裏側で取得しているという研究結果が報告されました。本記事では、このAIの検索メカニズムが示す「情報の偏り」の実態と、日本企業が自社プロダクトやRAG(検索拡張生成)開発において考慮すべき技術的・戦略的なポイントを解説します。
ChatGPTはなぜ「引用の6倍」のページを読み込むのか
海外の最新調査によると、ChatGPT(Webブラウジング機能)は、回答の根拠としてユーザーに提示するリンク(引用元)の約6倍ものWebページを実際の処理プロセスで取得(リトリーブ)していることがわかりました。これは、AIがユーザーの質問に対して単に検索上位のページをそのまま返すのではなく、背後で多様な情報を読み込み、事実関係のクロスチェックや文脈のすり合わせを行った上で、最終的に最も適した少数のページだけを引用していることを意味します。専門用語でRAG(検索拡張生成)と呼ばれるこのプロセスにおいて、LLM(大規模言語モデル)は情報の「量」から「質」を抽出する高度なフィルターの役割を果たしています。
大手ドメインへの集中と網羅性の重視
同研究におけるもう一つの重要な発見は、AIが情報を取得するドメイン(Webサイト)が約30の主要なサイトに集中しており、特定の狭いテーマよりもトピック全体を網羅するコンテンツを好む傾向があるという点です。これを日本市場の文脈に当てはめると、大手ニュースメディア、官公庁(go.jp)、あるいは総合的なポータルサイトにAIの参照先が偏りやすいことを示唆しています。つまり、企業が自社の専門的な製品ページやオウンドメディアをAIに直接引用させようとしても、網羅性が不足していると、AIの裏側の情報収集網には引っかかっても最終的な回答の出典としては採用されにくいという新たなハードルが存在します。
自社AIプロダクト・RAG開発への技術的示唆
この「広範に取得し、厳選して出力する」というChatGPTのアプローチは、日本企業が自社内でRAGシステムを構築する際にも非常に参考になります。例えば、社内規程や業務マニュアルを読み込ませて回答させる社内AIを開発する場合、検索システム(Retriever)側で最初から少数の文書に絞り込むのではなく、関連する文書を多めにLLMに渡し、LLMの推論能力を使って必要な情報を取捨選択させる設計にすることで、回答の精度向上やハルシネーション(AIがもっともらしいウソをつく現象)の抑制に繋がります。一方で、この手法はLLMに渡すデータ量が増加するため、APIのトークン利用料(コスト)の増大や、回答生成までの待機時間が長くなるといったトレードオフにも注意を払う必要があります。
法規制と企業のWeb戦略におけるジレンマ
AIによる広範なWebクローリングは、ガバナンスやコンプライアンスの観点でも企業に新たな課題を突きつけています。日本の著作権法第30条の4では、情報解析目的での著作物の利用が広く認められていますが、自社の貴重な独自コンテンツがAIの回答の「養分」として利用されつつも、引用元としてトラフィック(アクセス)が還元されないという事態が起こり得ます。企業は、自社のWebサイトのrobots.txt(検索エンジンの巡回を制御するファイル)を適切に設定してAIクローラーをブロックする防御策をとるべきか、あるいは新しい検索行動に対応してあえてAIに読み込まれやすい網羅的なコンテンツを作るべきか、事業戦略に合わせた明確な意思決定が求められます。
日本企業のAI活用への示唆
これまでの内容を踏まえ、日本企業が実務において検討すべきポイントを整理します。
第一に、マーケティングや広報の観点では、従来のSEO(検索エンジン最適化)とは異なるアプローチが必要です。自社情報がAIに適切に参照されるためには、単なるキーワードの羅列ではなく、トピック全体を俯瞰できる文脈の豊かなコンテンツ作りが求められます。
第二に、社内向けAIや自社プロダクトにRAGを実装する際は、ChatGPTの裏側の仕組みと同様に「広めに検索してLLMに厳選させる」アーキテクチャの採用を検討し、精度向上とコスト・処理時間のバランスを最適化することが重要です。
第三に、自社のデジタル資産(Webコンテンツやデータ)をAIからどう保護するか、あるいはどう活用させるかという方針を定め、法務部門などと連携しながら、著作権やAIガバナンスに即した継続的なルール作りを進めることが不可欠です。
