AI News JAPAN

世界の最新AIニュースを毎朝配信(24時間以内)

Sakana AIとあずさ監査法人、LLMの経営能力を測る「CoffeeBench」を公開

30秒サマリー

  • Sakana AIと有限責任あずさ監査法人が、LLMエージェントの長期経営能力を評価するベンチマーク「CoffeeBench」を共同開発・公開
  • コーヒーのサプライチェーンを模した6社・90日間のシミュレーションで、最新モデル間でも利益に大きな格差が確認された
  • 一部モデルでは「考えているのに行動しない」停滞現象が観察され、将来的には不正行為の発生メカニズム研究への応用も視野に入れる

何が起きたか

Sakana AIは有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価するベンチマーク「CoffeeBench」を開発・公開した。同ベンチマークは、コーヒー業界のサプライチェーンを模した経済シミュレーション環境であり、農家・焙煎店・小売店の各2社、計6社をLLMエージェントが担当し、90日間にわたって純利益の最大化を目指す設計となっている。エージェントはメール送信・発注・価格交渉などのツールを呼び出して他社と相互作用し、掛売りや需要変動といった現実の企業間取引に近い要素も組み込まれている。

実験では、GPT-5.5やClaude Opus 4.7など複数の最新モデルを評価した結果、すべてのモデルが「何もしない」ベースラインを上回る成績を示した一方、モデル間の業績差は顕著だった。高成績モデルは農家・小売店双方へ積極的にメッセージを送り、価格交渉や受発注を頻繁に行う傾向があった。一方、ツール呼び出し回数が多くても利益に結びつかないケースもあり、取引執行や価格交渉など利益直結の行動に行動を振り向けられているかが重要と分析されている。

特筆すべき現象として、Claude Haiku 4.5では3試行すべてにおいて、シミュレーション途中から経済活動が停止し、固定費だけが積み重なって赤字に転落する「停滞現象」が観察された。推論ログによると、同モデルは仕入れや需要の分析は続けていたにもかかわらず、実際の行動には移らず待機を繰り返しており、「思考と行動の乖離」が長期にわたって生じていた。この現象は他のモデルでは観測されなかったという。また試験的な実験として、KPIを売上に変更し強いプレッシャーを与えた場合、循環取引のような不正行為は今回は観察されなかったが、将来のモデル高度化に伴い不正手段に「気づく」エージェントが現れる可能性を研究チームは指摘している。

原典ハイライト

CoffeeBenchは6社・90日間のマルチエージェント経済シミュレーションで、高成績モデルは積極的な価格交渉と取引執行を行い、Claude Haiku 4.5では「思考はしているのに行動しない」停滞現象が3試行すべてで発生した。将来的には、AIエージェントによる会計不正の発生メカニズム研究への応用も目指す。

出典: Sakana AI(公式ブログ)

So What?(なぜ重要か)

LLMエージェントが複数社にまたがるサプライチェーンを90日間自律運営できることが一定程度確認されたが、モデルの選択が経営成績に直結することが実験で示された。さらに「思考と行動の乖離」という長期タスク特有の障害や、将来的な不正行為リスクという新たな課題も浮上しており、AIを業務自動化に活用する際の評価・ガバナンス基準の重要性が高まっている。

日本企業への示唆

調達・在庫管理・価格交渉といった業務へのLLMエージェント導入を検討する日本企業にとって、モデルの「長期タスクへの耐性」と「行動特性」の事前評価が不可欠であることが示唆される。CoffeeBenchのような業務特化型ベンチマークで候補モデルを比較検証するアプローチは実務的な参考になりうる。また、あずさ監査法人が関与している点は注目に値する。AIエージェントが経営判断を担う将来を見据え、その行動監査やガバナンス設計を専門家と連携して検討し始めることが、特に製造・流通・商社系企業にとって早期の経営課題となり得る。

背景・経緯

近年、LLMエージェントはソフトウェア開発やウェブ操作など複雑な長期タスクをこなせるようになっており、企業運営への応用への関心が高まっている。先行研究としてVending-BenchやProject Vendといった自販機運営シミュレーションが存在するが、CoffeeBenchはこれらをマルチエージェントの企業間取引環境に拡張したものと位置づけられる。本研究はICML2026 Workshop「Failure Modes in Agentic AI」での発表が予定されており、論文・コード・行動履歴データが公開されている。