OpenAI、生命科学AI評価基準「LifeSciBench」を公開—製薬・バイオ向け750問の専門家設計ベンチマーク

30秒サマリー

OpenAIが2026年6月17日、生命科学分野のAI能力を測る専門家設計ベンチマーク「LifeSciBench」を発表した
博士号・製薬バイオ業界経験を持つ173人の科学者が750問を作成し、453人が査読、1タスク平均25の評価基準を設定
現行ベンチマークが捉えきれない「多段階推論・不確実性下の判断・実験設計」など実務に即した能力を評価対象とする

何が起きたか

OpenAIは2026年6月17日、生命科学研究向けAI評価基準「LifeSciBench」を発表した。同ベンチマークは、博士号取得者かつバイオテクノロジー・製薬業界での実務経験を持つ173人の科学者によって作成された750タスクで構成される。タスクは「証拠の処理」「分析」「設計・最適化・予測」「科学的推論」「検証・オペレーション」「トランスレーション」「科学的コミュニケーション」の7ワークフローと7つの生物学的ドメインにまたがる。

評価の特徴として、タスクの79%が複数の推論・意思決定ステップを必要とし、1タスク平均4ステップとされる。また53%のタスクは図表・PDF・配列ファイル・化学構造ファイルなど1,062点のアーティファクトを解釈・統合することを求める。採点には合計19,020項目の専門家作成ルーブリック（1タスク平均25項目）が用いられ、最終回答の正否だけでなく、科学的に妥当なプロセスで結論に至っているかを評価する。

タスク採用プロセスは厳格で、各タスクは平均6回の自動レビューサイクルと最低2回の専門家査読を経ており、採用には関連分野の査読者間で90%以上の合意が必要とされる。453人の専門家が査読者として参加した。公式ブログでは、デュシェンヌ型筋ジストロフィー遺伝子治療のFDA承認パッケージを批判的に検証するタスク例が示されており、規制対応・臨床エビデンス評価といった高度な実務判断を問う設計になっている。

原典ハイライト

LifeSciBenchの設計思想について原文は「現行の評価基準は狭いドメインや単一スキルに偏り、研究レベルの業務全体にモデルが貢献できるかを真に評価できていない」と指摘。同ベンチマークは「科学者が知識豊富な協力者に依頼するような形式」でタスクを構造化し、正解到達のプロセスや有用性まで採点することを核心としている。

出典: OpenAI News/Research（公式ブログ）

So What?（なぜ重要か）

これまでAIの生命科学能力は、知識問答や単純予測タスクで測られることが多かった。LifeSciBenchは「実験設計の妥当性」「規制当局への説明責任」「不確実性下の判断」など、実際の創薬・研究業務に直結する能力を体系的に評価する初めての大規模ベンチマークとみられる。今後、製薬・バイオ企業がAIツールを選定・評価する際の業界標準指標になる可能性があり、AIベンダー間の差別化軸がこの評価基準に収斂していく可能性がある。

日本企業への示唆

製薬・バイオ企業の意思決定者にとって、LifeSciBenchはAIツール導入・比較評価の共通尺度として活用できる可能性がある。特に①FDA対応資料の品質レビュー、②多段階の臨床エビデンス統合、③実験プロトコル設計といった業務でのAI活用を検討する際、同ベンチマークの各ワークフロー分類をそのまま社内の評価フレームワークに転用することが考えられる。また、社内のAIガバナンス整備においても、「最終回答の正否」だけでなく「推論プロセスの科学的妥当性」を評価基準に加える必要性を示唆しており、調達仕様書や検収基準の見直しを検討する好機といえる。

背景・経緯

生命科学分野のAI評価は、タンパク質構造予測や単一知識問答など個別タスクに特化したベンチマークが先行してきた。原文によれば、こうした既存評価は「構造化された質問形式とクリーンな参照回答」に依存しており、研究業務全体を通じたAIの実用性を測るには不十分とOpenAIは判断。実際の創薬プログラムを推進してきた科学者の知見を直接組み込む形でLifeSciBenchを設計したとしている。論文プレプリントも同時公開されている。

AI News JAPAN