ニューヨーク・タイムズ紙は「税務申告をAIに任せてはいけない」と警告する記事を掲載しました。この事例は、単なるツールの不具合ではなく、大規模言語モデル(LLM)の根本的な仕組みに起因する課題を浮き彫りにしています。本稿では、AIの「もっともらしい嘘」が許されない領域において、日本企業がどのように技術を選定し、ガバナンスを効かせるべきか、エンジニアリングと組織論の両面から解説します。
言語モデルは「真理の探究者」ではなく「言葉の確率論者」
AIチャットボットが税務申告のような厳格なルールに基づくタスクで失敗する理由は、技術的な未熟さというよりも、LLM(大規模言語モデル)の基本的な設計思想にあります。LLMは、膨大なテキストデータから「次に来るもっともらしい単語」を確率的に予測するシステムであり、事実の真偽を検証したり、厳密な論理演算を行ったりするようには設計されていません。
OpenAIやMicrosoftなどのプロバイダーは精度向上に努めていますが、「計算」や「法解釈」といった決定論的(Deterministic)な処理を、確率論的(Probabilistic)なモデルに丸投げすること自体が、システム設計としてリスクを孕んでいます。特に税務のような、一度の計算ミスや解釈ミスが法的責任や金銭的損失に直結する分野では、AIの「自信満々な回答」が最大の落とし穴となります。
日本の複雑な商慣習・法規制とAIの親和性
この問題は、日本国内の業務においても同様です。日本の税制や労務管理は極めて複雑で、インボイス制度や電子帳簿保存法のように頻繁な法改正が行われます。また、業界特有の商慣習や、企業ごとのローカルルールも存在します。
汎用的なLLMは、インターネット上の一般的な情報は学習していますが、最新の日本国内の法改正や、特定企業の社内規定を正確に把握しているわけではありません。そのため、人事・労務・法務・経理といったバックオフィス業務や、金融・医療といった専門性の高い領域で、素のLLM(ChatGPTなどをそのまま使う状態)に判断を委ねることは、コンプライアンス上の重大なリスクとなります。
「RAG」と「Function Calling」による実務的な解決策
では、専門業務にAIは使えないのでしょうか? 答えは「No」ですが、使い方の転換が必要です。実務においては、LLMを「知識の源泉(データベース)」として使うのではなく、「推論と変換のエンジン(インターフェース)」として利用するアーキテクチャが求められます。
具体的には、以下の2つの技術的アプローチが標準になりつつあります。
- RAG(検索拡張生成):AIに回答させる前に、信頼できる社内マニュアルや最新の法令データベースを検索させ、その検索結果に基づいて回答を生成させる手法。これにより、根拠のないでっち上げ(ハルシネーション)を大幅に抑制できます。
- Function Calling(ツール利用):計算処理や特定のデータ取得をLLMに行わせるのではなく、LLMが「計算機」や「API」を呼び出す仕組み。税額計算であれば、LLMが計算するのではなく、既存の信頼できる税務計算プログラムに数値を渡して結果を受け取る役割に徹させます。
日本企業のAI活用への示唆
今回の「AIと税務」の議論から、日本の経営層やプロダクト担当者が学ぶべき点は以下の通りです。
- 「餅は餅屋」のアーキテクチャ設計:言語処理はLLMに、事実確認は検索エンジンに、計算は計算機に任せるという、ハイブリッドなシステム構成を前提としてください。「AIですべて解決する」というベンダーの甘言には注意が必要です。
- Human-in-the-Loop(人間による確認)の制度化:特に「責任」が問われる業務(契約書チェック、決算業務、医療診断支援など)では、AIはあくまで「ドラフト作成支援」や「ダブルチェック要員」に留め、最終的な意思決定と責任は人間が持つ業務フローを構築する必要があります。
- AIリテラシーの再定義:従業員に対し、プロンプトエンジニアリングだけでなく、「AIが得意なタスクと苦手なタスク(計算、厳密な事実確認)」を理解させる教育が急務です。「AIが言ったから正しい」という盲信を防ぐことが、組織のリスク管理の第一歩となります。
