20 1月 2026, 火

信頼性はどこまで担保できるか?Ahrefsの実験が浮き彫りにしたAIハルシネーションの本質と日本企業の対抗策

SEOツール大手のAhrefsが行った興味深い実験があります。架空のブランドについてAIに質問した結果、一部のモデルはもっともらしい嘘をつき、別のモデルは存在を否定しました。この実験結果は、AIの「嘘」のリスクだけでなく、LLM(大規模言語モデル)の特性理解と、実務におけるモデル選定の重要性を強く示唆しています。

架空のブランド「Xarumei」を巡る実験

生成AIをビジネスに導入する際、最も懸念されるのが「ハルシネーション(もっともらしい嘘)」の問題です。SEOツールベンダーのAhrefsが行った最近の実験は、この問題に対して非常に実務的な示唆を与えています。

実験の内容はシンプルです。「Xarumei」という実在しない架空のブランド名をでっち上げ、8つの主要なAIプラットフォームに対して、このブランドに関する56の質問を投げかけるというものです。もしAIが事実に基づいて回答するのであれば、「そのようなブランドは存在しません」と答えるはずです。

結果として、Anthropic社のClaudeはこのテストにおいて100%のスコアを記録しました。つまり、架空のブランドに対して懐疑的な姿勢を貫き、嘘をつくことを拒否したのです。一方で、他のいくつかのモデルは、あたかもそのブランドが実在するかのように、製品の特徴や歴史をもっともらしく語り始めました。

なぜAIは「知らない」と言えないのか

この実験が示しているのは、単なるモデルの優劣ではありません。LLM(大規模言語モデル)が本来持っている「文脈補完」の強力さと、それが裏目に出るリスクです。

多くのLLMは、ユーザーのプロンプト(指示)に含まれる前提を「正」として受け入れ、会話を成立させようとする傾向があります。これを「追従性(Sycophancy)」と呼ぶこともあります。ユーザーが「Xarumeiの特徴は?」と聞けば、AIは「ユーザーが聞くのだから、存在するのだろう」と推論し、学習データにある確率的なつながりから「もっともらしい回答」を生成してしまうのです。

Claudeが高いスコアを出したのは、開発元のAnthropicが「Constitutional AI(憲法的AI)」というアプローチで、事実に基づかない回答を抑制する調整(アライメント)を強力に行っているためと考えられます。これは、創造性よりも安全性を重視する日本企業のニーズに合致する特性と言えるでしょう。

日本企業が直面する「もっともらしい嘘」のリスク

日本の商習慣において、企業が誤った情報を発信することは、欧米以上に深刻なレピュテーションリスク(評判リスク)につながります。特にカスタマーサポートや社内ナレッジ検索において、AIが「存在しない規約」や「架空の製品スペック」を回答してしまった場合、コンプライアンス違反や顧客からの信頼失墜に直結します。

今回の実験結果は、「最新のAIなら何でも知っている」という過信を戒めるものです。同時に、RAG(検索拡張生成:社内データ等を検索して回答させる技術)を導入したとしても、ベースとなるLLMの性格によっては、検索結果にない情報を勝手に補完してしまうリスクが残ることを示唆しています。

日本企業のAI活用への示唆

Ahrefsの実験結果と日本の実務環境を踏まえ、以下の3点を重要な示唆として整理します。

1. 用途に応じたモデル選定の重要性

すべての業務に単一のモデルを使うのではなく、「創造性」が必要なタスク(アイデア出し、コピーライティング)と、「正確性・堅実性」が必要なタスク(要約、Q&A対応)でモデルを使い分けるべきです。今回の事例のように、Claudeのようなモデルは、事実確認やリスク回避が求められる場面で強みを発揮する可能性があります。

2. プロンプトエンジニアリングによる「逃げ道」の確保

AIに対して「もし情報が見つからない場合は、正直に『わかりません』と答えてください」という明示的な指示(制約条件)を与えることが、実務では不可欠です。また、システムプロンプト(AIへの基本命令)レベルで、架空の情報の生成を厳しく禁止する設計を行う必要があります。

3. 人間による検証プロセスの組み込み(Human-in-the-Loop)

どれほど高性能なモデルであっても、ハルシネーションのリスクをゼロにすることは現状困難です。特に外部公開するコンテンツや重要な意思決定においては、必ず人間がファクトチェックを行うフローを業務プロセスに組み込むことが、AIガバナンスの基本となります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です