LLMエージェント、OR最難問タスクの通過率は20%止まり——新ベンチマーク「ORAgentBench」が示す実力

30秒サマリー

LLMエージェントがオペレーションズ・リサーチ（OR）タスクをエンドツーエンドで解く能力を測る新ベンチマーク「ORAgentBench」が公開された
最良エージェントでも全タスク通過率35.51%、難タスクは20.59%にとどまり、現状では実務レベルに遠く及ばないと結論付けられた
失敗の主因は「業務ルールの見落とし」「解の定式化の脆弱さ」など戦略的弱点であり、コード生成能力の高さとは別次元の課題が浮き彫りになった

何が起きたか

2026年6月18日、Jiajun Liら8名の研究者がarXivにプレプリント論文「ORAgentBench」を投稿した。同ベンチマークは、LLMエージェントがオペレーションズ・リサーチ（OR）業務をエンドツーエンドで遂行できるかを評価する実行環境付きの検証基盤として設計されている。

ベンチマークは人手でレビューされた107タスクで構成され、各タスクには自然言語の要件定義書、複数ファイルの入力データ、設定ファイル、提出スキーマが含まれる。エージェントは解法コードを自ら記述・実行し、提出物はスキーマ適合性・制約充足・目的関数の品質という3軸で隠しバリデーターにより採点される。

14種類のフロンティアエージェント・モデル構成で実験した結果、最良構成でも全タスク通過率は35.51%、難タスクでは20.59%にとどまった。制約を満たす解を出力できた場合でも、要求される品質水準を下回るケースが多数確認されたという。

失敗分析によると、エラーの大部分は「業務上のルールの見落とし」「定式化の脆弱さ」「実行可能解の構築力の低さ」「解の改善努力の不足」といった戦略的弱点に起因する。OR特有の手続き的スキルを付与すると難タスクの制約充足率は改善したが、解の品質や通過率の安定した向上にはつながらなかったと論文は述べている。

原典ハイライト

論文は「現在のLLMエージェントは、もっともらしい最適化コードを生成する段階を超え、信頼性が高く高品質な業務意思決定へと進化する必要がある」と結論付けている。最高スコアのエージェントでさえ難タスク通過率は約2割にとどまり、コード生成能力と業務的判断力の間に大きなギャップが存在することが定量的に示された。

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

LLMがプログラムコードを書けることと、実際のビジネスORタスク（スケジューリング・配送計画・在庫最適化など）を正確に解くこととは別物であることが、実行環境付きベンチマークで初めて体系的に示された。特に「業務ルールの見落とし」という失敗パターンは、現実の企業オペレーションで致命的なミスに直結しうる。LLMエージェントへの業務委譲を検討する際、「コードが動く＝正しい答えが出る」という過信は禁物であることが改めて示された。

日本企業への示唆

サプライチェーン管理や生産計画にLLMエージェントを導入しようとしている日本企業にとって、本研究は重要な判断材料となる。現状の最先端エージェントでも難タスクの8割近くで正解を出せない以上、①人間の専門家によるアウトプット検証プロセスの設計、②業務固有のルール・制約をエージェントに明示的に与える仕組みの整備、③単にコードが実行できたかではなく解の品質を評価するKPI設定——の3点を、PoC段階から組み込むことが不可欠とみられる。特に「業務ルールの見落とし」は日本の製造業特有の複雑な段取り制約や顧客別優先ルールで起きやすく、自動化範囲の慎重な設定が求められる。

背景・経緯

オペレーションズ・リサーチ（OR）は物流・生産・金融などの意思決定最適化を扱う分野で、LLMの業務活用が進む中でその適用可能性への関心が高まっていた。論文によると、既存のOR評価では「モデル化」と「求解」を分離して評価するケースや、テキストのみの単純な問題設定にとどまるケースが多く、実際の業務ファイルを扱うエンドツーエンドの評価が欠如していたと指摘されている。ORAgentBenchはこのギャップを埋める目的で設計された。

AI News JAPAN