企業内で生成AIを活用する際、社内データを連携させるRAG(検索拡張生成)の導入が定番となっています。しかし、「とりあえずデータを流し込んだが期待した精度が出ない」と悩む企業は少なくありません。AIのパフォーマンスを左右するデータ品質の重要性と、日本企業が取り組むべき実務的なアプローチについて解説します。
「ゴミを入れれば、ハルシネーションが出る」LLM時代の現実
機械学習の分野には昔から「Garbage In, Garbage Out(ゴミを入れればゴミが出てくる)」という言葉があります。質の低いデータからは質の低い結果しか得られないという原則ですが、これは最新の大規模言語モデル(LLM)においても例外ではありません。むしろ、LLMを活用したシステムにおいては「Garbage In, Hallucinations Out(ゴミを入れればハルシネーションが出てくる)」と言い換えるべきでしょう。
現在、多くの日本企業が社内規定や業務マニュアル、過去の提案書などをLLMに読み込ませ、自社専用の回答を生成させるRAG(Retrieval-Augmented Generation:検索拡張生成)の構築に取り組んでいます。しかし、PoC(概念実証)の段階で「もっともらしい嘘(ハルシネーション)が多くて実業務で使えない」という壁にぶつかるケースが後を絶ちません。その原因の多くは、AIのモデル自体の性能ではなく、入力される「社内データ」の品質の低さにあります。
RAGの精度を低下させる日本企業特有の「社内データの罠」
RAGは、ユーザーの質問に関連する情報を社内データベースから「検索」し、その情報を元にLLMが回答を「生成」する仕組みです。つまり、検索元のデータが古かったり、矛盾していたりすれば、LLMは間違った情報をベースに自信満々に不正確な回答を作成してしまいます。
特に日本企業のデータ環境においては、いくつかの特有の課題が存在します。例えば、過度にセル結合された表計算ファイル(いわゆる「神エクセル」)や、紙の書類を画像としてスキャンしただけのPDF文書などは、AIにとって非常に文脈を読み取りづらいフォーマットです。さらに、ファイルサーバーの運用ルールが曖昧で「最終版」「最新_修正版」といったファイルが乱立している状況や、部署ごと・システムごとに用語の定義が異なる(表記ゆれ)といった問題も、検索時の大きなノイズとなりAIの混乱を招きます。
信頼できるAIシステムを構築するためのデータクレンジング
LLMのパフォーマンスを最大限に引き出すためには、AIにデータを読み込ませる前の「データクレンジング(データの整形・クリーニング)」が不可欠です。まずは、不要なデータや重複ファイルを排除し、「どの文書が最新で正(マスター)なのか」を人間が明確にする必要があります。
また、データに適切なメタデータ(作成日時、作成部門、ドキュメントの種類などの属性情報)を付与することで、RAGの検索精度は劇的に向上します。「2023年以降の、人事部が発行した規定の中から探す」といった絞り込みが可能になるためです。高度なプロンプトエンジニアリングや高価な最新モデルの導入を検討する前に、足元のデータを「AIが理解しやすいクリーンな状態」に整えることこそが、実務で使えるAIシステム構築の最短ルートとなります。
同時に、データガバナンスへの配慮も忘れてはなりません。クレンジングやデータ連携の過程で、個人情報や機密情報が意図せずAIの検索対象に含まれていないか、役職や部門に応じたアクセス権限は適切に設定されているかを確認することが、コンプライアンス上の重大なリスクを防ぐことにつながります。
日本企業のAI活用への示唆
第一に、「とりあえずあるデータを全部AIに読み込ませてみる」という安易なアプローチから脱却することです。AIプロジェクトの初期段階で、対象とするデータの棚卸しと品質評価を実施し、必要であれば業務部門を巻き込んでデータの整備を行うための予算とリソースを確保すべきです。
第二に、「AI前提の業務プロセス」への移行です。これから作成する社内文書については、人間だけでなくAIも読み取りやすいフォーマット(シンプルな構造のテキストや表、社内で統一された用語)で作成するルールを定め、社内に浸透させていくことが求められます。この組織文化の変革が、中長期的なAI活用の成否を分けます。
第三に、強固なデータガバナンス体制の構築です。社内のデータ管理規程を見直し、AIに連携するデータの選定基準や、アクセス権限の厳格な管理方針を定めてください。クリーンで安全なデータ基盤こそが、真の意味で業務効率化や新規事業創出に貢献する、信頼性の高いエンタープライズAIの土台となります。
