Googleの検索アドボケートであるJohn Mueller氏が、LLMのクローラー向けにWebページをMarkdown形式で配信するアイデアを「愚かな考え(A stupid idea)」と強く否定しました。生成AIによる検索体験(SGEやSearchGPTなど)への対策として技術的な抜け道を探る動きがある中、なぜこの手法が推奨されないのか、その技術的背景と日本企業のWeb戦略における示唆を解説します。
「AI向けにMarkdownを配信する」というアイデアの背景
生成AIや大規模言語モデル(LLM)の普及に伴い、Webサイト運営者やSEO(検索エンジン最適化)担当者の間では、「いかにして自社のコンテンツをAIに正確に学習・参照させるか」という新たな課題、いわゆるGEO(Generative Engine Optimization)への関心が高まっています。
その中で一部のエンジニアやマーケターから提唱されていたのが、「人間にはリッチなHTMLを見せ、AIボット(クローラー)には軽量で構造化されたMarkdownファイルを配信する」という手法です。LLMはプレーンテキストやMarkdownの処理を得意としており、余計なHTMLタグやスクリプトを排除することで、トークン数を節約し、AIが内容を理解しやすくなるのではないか、という仮説に基づいています。
Googleが「愚かなアイデア」と一蹴した理由
しかし、GoogleのJohn Mueller氏は、このアプローチに対して明確に否定的な見解を示しました。主な理由は、Webのエコシステムが長年にわたりHTMLを中心に最適化されているという事実にあります。
現在の検索エンジンやAIクローラーは、HTMLの構造(DOMツリー)を解析することに極めて長けています。HTMLは単なる装飾ではなく、見出し、リスト、強調などの意味論的(セマンティック)な情報を含んでおり、これこそがAIが文脈を理解する手がかりとなります。わざわざMarkdownという別フォーマットを用意することは、確立された標準技術を捨て、メンテナンスコストのかかる独自仕様を持ち込むことに他なりません。
クローキングのリスクと運用コストの増大
さらに実務的なリスクとして、「クローキング(Cloaking)」とみなされる可能性が挙げられます。クローキングとは、検索エンジンとユーザーに異なるコンテンツを表示する行為であり、従来のSEOではペナルティの対象となる悪質な手法です。
日本企業においても、コンプライアンスやガバナンスの観点からこの問題は無視できません。「AI用」と「人間用」で別々のファイルを管理運用することは、情報の整合性を保つ難易度を劇的に上げます。例えば、利用規約や製品スペックの更新時に片方の更新が漏れれば、AIが誤った情報(ハルシネーションの元)を回答し、ユーザーがそれを見てトラブルになるという法的リスクも考えられます。
日本企業のAI活用への示唆
今回のGoogleの発言は、AI時代におけるWeb戦略とデータ整備について重要な視点を提供しています。日本企業が取るべきスタンスを以下に整理します。
1. 「小手先の技術」より「セマンティックなHTML」への回帰
AIに好かれようとして特殊なフォーマットを用意する必要はありません。見出しタグ(h1, h2…)の適切な使用、画像へのalt属性の付与、構造化データ(Schema.org)の実装など、Web標準に準拠した「正しいHTML」を書くことが、結果としてAIにとっても最も読みやすいデータとなります。
2. シングルソース・マルチユースの徹底
「AI用データ」を別途作成・管理する工数は、日本の現場において大きな負担となります。Webサイト上の情報を正(マスター)とし、それを人間もAIも参照するという一元管理の原則を崩さないことが、長期的な運用コスト削減とガバナンス維持につながります。
3. 社内RAG(検索拡張生成)との混同に注意
今回の話は「外部公開Webサイト」の話です。一方で、社内ドキュメントをRAGで検索させるシステムを構築する場合は、PDFやExcelよりもMarkdownの方が処理しやすいケースは多々あります。社内システム開発の文脈と、対外的なWeb公開の文脈を混同せず、それぞれの目的に適した技術選定を行うことが重要です。
