LLMは「自分の知らないこと」を知らない――医療データで露呈した信頼度の欺瞞

30秒サマリー

LLMの自己申告する信頼度スコアは正確さと無関係で、実質的に無意味と判明
XGBoostとの比較分析で、LLMは簡単な問題ほど精度が低下する逆説的現象を示した
複数手法を組み合わせたキャリブレーターにより、信頼度誤差を約70%削減できる

何が起きたか

Akshat DasulaらがarXivに投稿し、ICML 2026のEIMLワークショップに採択された論文は、大規模言語モデル（LLM）が構造化された臨床データを扱う際に「自分の限界を認識できるか」を検証した。対象はQwen 2.5 7BとXGBoostで、臨床表形式データの予測タスクにおいてモデル間の「アトリビューション乖離（ADS）」を分析した。

研究が報告した主な知見は四点ある。第一に、LLMが出力する言語化された信頼度は0.856〜0.937の範囲でほぼ一定であり、実際の予測精度が49%でも75.3%でも変わらなかった。つまり信頼度スコアがプロンプトの書き方を反映しているだけで、予測の質とは無関係だという。第二に、XGBoostが99%の正解率を示す「簡単な問題」でLLMの精度は64.8%に低下する一方、XGBoostが中程度の不確実性を示す場面ではLLMとの精度差がほぼなくなる（73.8% vs 73.1%）という逆説的な傾向が確認された。

第三に、少数事例（few-shot）提示とSHAPから導いた特徴量エビデンスを組み合わせると、ADSスコアが1.54から0.38に低下し、精度が49%から75.3%へと向上した。これは追加学習なしに達成された。第四に、アトリビューション乖離シグナルを用いた「クロスモデルキャリブレーター」を適用することで、期待キャリブレーション誤差（ECE）が0.254から0.080へと大幅に改善し、モデル内部へのアクセスや繰り返し推論なしに患者個別の信頼度推定が可能になったとしている。

原典ハイライト

論文は「LLMの言語化された信頼度は認識論的に空虚（epistemically vacuous）」と断言。精度49%でも75%でもほぼ同じ信頼度を出力し続けるという実証結果は、LLMを医療意思決定に用いる際の根本的リスクを示している。

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

医療・金融など精度と信頼性が求められる領域でLLMを活用する場合、モデルが出力する「自信度」の数値をそのまま意思決定の根拠にすることは危険であると、本研究は実証的に示した。LLMは正確に答えられる問題と答えられない問題を自ら区別できないため、外部からのキャリブレーション機構が不可欠となる。また、従来型の勾配ブースティング手法（XGBoost）との組み合わせが、LLM単独よりも高い信頼性をもたらす可能性が示唆されている。

日本企業への示唆

医療AIや金融リスク判定にLLMを導入している、あるいは検討中の日本企業にとって、自社システムがLLMの「自己申告の信頼度」を重要な判断材料にしていないかを緊急点検する価値がある。本研究が示す「クロスモデルキャリブレーター」のように、従来型MLモデルとLLMを組み合わせてお互いの弱点を補完するハイブリッド設計の採用を検討すべき段階に来ている。また、規制当局への説明責任が求められる場面では、LLMの信頼度スコアを根拠として提出することのリスクを経営・法務部門と共有しておくことが望ましい。

背景・経緯

LLMの医療・臨床データへの応用は急速に広がっているが、構造化された表形式データ（電子カルテの数値データ等）への適用はテキスト処理と異なる課題を抱えている。本論文はその「認識論的盲点」という問題に正面から取り組んだ研究であり、ICML 2026のEIMLワークショップへの採択は学術的な一定の評価を示している。なお、論文はarXivでの査読前プレプリントとして公開されており、本誌記載の段階ではワークショップ採択であることを付記する。

AI News JAPAN