大規模言語モデル(LLM)の活用は、コンテンツ生成から「評価・採点」の領域へと広がりを見せています。デンバー大学の研究プロジェクト「OCSAI」の事例をもとに、これまで定量化が困難だった「創造性」や「拡散的思考」をAIがどのように評価するのか、そして日本企業が評価AIを導入する際の可能性とリスクについて解説します。
生成AIの新たな役割:「クリエイター」から「審査員」へ
生成AIといえば、文章や画像を作成する「クリエイター」としての側面に注目が集まりがちです。しかし、昨今のAI研究・開発の現場では、AIを「審査員(Judge)」として活用する動きが加速しています。その一例が、デンバー大学が開発・公開している「OCSAI(Open Creativity Scoring with AI)」です。
OCSAIは、ファインチューニングされたLLMを用いて、人間の「創造性」を自動採点するシステムです。具体的には、「拡散的思考(Divergent Thinking)」と呼ばれる、一つの事象から多様なアイデアを生み出す能力を測定するテスト(例:ある物体の新しい使い道をできるだけ多く挙げる課題など)の回答を評価します。
従来、こうした創造性の評価は専門家による手作業が必要で、多大な時間とコストがかかる上に、評価者ごとの主観のブレ(バイアス)が避けられませんでした。OCSAIのような取り組みは、意味論的モデル(Semantic Models)を用いて回答の「独自性」や「意味的な距離」を計算することで、高速かつ大規模に、一定の基準で評価を行うことを可能にします。
ビジネス実務における「定性評価の自動化」
この技術は、単なる心理学テストの自動化にとどまらず、企業の実務に大きなインパクトを与える可能性があります。日本企業においても、以下のような領域での活用が考えられます。
一つ目は、人材採用と配置です。エントリーシートや適性検査の記述回答において、定型的なキーワードが含まれているかだけでなく、「発想のユニークさ」や「論理の飛躍のなさ」をAIが一次スクリーニングするケースです。これにより、採用担当者はより高次な判断に集中できるようになります。
二つ目は、新規事業・R&D分野でのアイデア選定です。社内アイデアソンやブレインストーミングで出された膨大なアイデアに対し、既存の概念からどれだけ離れているか(新規性)をAIでスコアリングし、人間が見落としがちな「尖ったアイデア」を拾い上げる補助ツールとしての活用です。
日本独自の文脈と「評価AI」のリスク
一方で、LLMによる評価システムを日本企業が導入する際には、特有の課題も存在します。最大のリスクは「文化的バイアス」と「ブラックボックス化」です。
OCSAIを含む多くの評価モデルは、主に英語圏のデータセットで学習されています。欧米における「創造的(Creative)」な回答と、日本の文脈で評価される「気の利いた(Omotenashi/Kigakiku)」回答や「文脈を読んだ」回答は、必ずしも一致しません。そのまま海外製モデルを適用すると、日本独自の商習慣や文化的背景に基づいた優れたアイデアが「不適当」あるいは「凡庸」と判定されるリスクがあります。
また、AIがなぜそのスコアを付けたのかという根拠が不明瞭なままでは、人事評価や事業判断の透明性(Explainability)を確保できず、AIガバナンスやコンプライアンスの観点から問題視される可能性があります。日本では特に、納得感や公平性が組織運営において重視されるため、この点は致命的になり得ます。
日本企業のAI活用への示唆
OCSAIのような評価AIの技術進展を踏まえ、日本企業は以下の3点を意識して活用を進めるべきです。
1. 「判定」ではなく「支援」として位置づける(Human-in-the-Loop)
AIによるスコアリングを最終決定とするのではなく、あくまで「人間の評価者を支援するセカンドオピニオン」として位置づけることが重要です。特に採用や人事評価など、個人のキャリアに関わる領域では、AI法規制の動向(EU AI Actなど)も鑑み、最終判断は必ず人間が行うプロセスを設計する必要があります。
2. ローカライズと評価基準のチューニング
グローバルモデルをそのまま使うのではなく、自社の過去の評価データや、日本の文化的背景を学習させたモデルへのファインチューニング、あるいはプロンプトエンジニアリングによる評価基準の明確化が不可欠です。「御社にとっての創造性とは何か」を言語化し、AIに指示できるかどうかが問われます。
3. 業務効率化と質の向上をセットで考える
単に「評価工数を減らす」ことだけを目的とせず、「これまで見落としていた才能やアイデアを発掘する」という質の向上をKPIに含めるべきです。AIは疲れることなく膨大なデータを処理できるため、人間では評価しきれなかったロングテールのアイデアに光を当てるツールとして活用することで、イノベーションの創出につなげることができます。
