AI創薬エージェント、最高性能でも正答率59%止まり—新ベンチマークが限界を可視化

30秒サマリー

小分子薬の前臨床薬理判断をAIに問う初の専用ベンチマーク「TxBench-PP」が公開された
11モデル・4,800軌跡を評価した結果、最優秀構成でも正答率は59.3%にとどまった
「文献の丸暗記」ではなく「実アッセイデータからの推論」を問う設計が現状の限界を鮮明にした

何が起きたか

2026年6月17日、Hannah Leら6名の研究者がarXivに論文「TxBench-PP」を公開した。これは小分子化合物の前臨床薬理学に特化した検証可能なベンチマークで、より広範な「TherapeuticsBench」プロジェクトの第一弾と位置付けられている。

ベンチマークは100項目の評価課題で構成され、作用機序（MoA）・薬力学（PD）推論、化合物—標的エンゲージメント、因果的標的検証、開発適性・安全性、並びに翻訳的有効性の各領域をカバーする。AIエージェントは実際の研究プログラムのワークフロースナップショットを与えられ、コーディング環境でファイルを精査したうえで構造化された回答を返す。採点は決定論的（客観的基準）に行われる。

16種のモデル—ハーネス構成（11モデル・4,800軌跡）を横断した評価の結果、いずれのシステムも前臨床薬理学的判断を安定して再現できなかった。最も成績が高かったのはClaude Opus 4.8 / Pi構成で、エンドポイント試行300件中178件に正答し正答率59.3%（95%信頼区間：51.1〜67.6%）。次いでGPT-5.5 / Pi構成が55.3%（166/300、95%CI：47.0〜63.6%）だった。

原典ハイライト

論文は「いかなるシステムも前臨床薬理学的判断を信頼できる水準で再現できなかった（no system reliably recovered preclinical pharmacology decisions）」と明記している。最高性能の構成でさえ正答率は59.3%に過ぎず、統計的信頼区間の下限は51%程度にとどまる。

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

「AI創薬元年」という言説が流布する一方、本研究は最先端モデルが実際の前臨床判断タスクでほぼコイントス水準に近いことを客観的なベンチマークで示した。実アッセイデータに基づく推論という、創薬実務の核心部分でAIがまだ信頼に足る水準に達していないことが数値で裏付けられた意義は大きい。逆に言えば、ベンチマーク整備が進むことで「どこは使える、どこは使えない」という判断基準が業界に生まれ始めた段階とも言える。

日本企業への示唆

国内製薬・バイオテック企業がAI創薬ツールを導入・評価する際、ベンダーの宣伝文句だけでなくTxBench-PPのような外部ベンチマーク上の客観スコアを確認する習慣が必要になる。現状では前臨床薬理判断の自動化には限界があるため、AIはあくまで専門家の補助ツールとして位置づけ、意思決定の最終責任を人間が持つ体制を維持することが合理的だ。一方、今後このベンチマークで高スコアを達成するモデルが登場した際には、自社パイプラインへの積極活用を検討する判断材料になりうる。投資やパートナーシップ審査にも本ベンチマークの活用を検討すべきだろう。

背景・経緯

AIエージェントを創薬プロセスに活用しようとする動きは近年加速しているが、既存の評価手法の多くは文献知識の記憶再現を問うものが中心だった。TxBench-PPは実際の研究プログラムで生じるアッセイデータの解釈・判断能力を問う設計を採用しており、より実務に即した評価を目指している。同論文によれば、このベンチマークはTherapeuticsBenchと称する複数の創薬ステージ・治療モダリティにまたがる大規模評価フレームワークの最初のコンポーネントと説明されている。

AI News JAPAN