AIエージェントの「命令漏れ」問題、標準QAでは検出不能と論文指摘

30秒サマリー

プロンプトを複数モジュールで構成するAIエージェントで、モジュール間の意図せぬ相互干渉が生じる「命令漏れ（CBL）」が確認された
実運用中の求人評価エージェント（Claude Sonnet 4.6）で実験し、コンテンツの変更が他モジュールの挙動を統計的に有意に変化させることを検証
個々の判断を覆すほどの影響は観測されなかったが、大量の意思決定を積み重ねると累積的な品質劣化リスクとなると研究者は警告している

何が起きたか

Ching-Yu Linらは2026年6月24日、arXivに論文「Instruction Bleed」を公開した。この論文は、複数のプロンプトモジュールを組み合わせて構築するAIエージェントで発生する「構成的行動漏れ（Compositional Behavioral Leakage、CBL）」という障害モードを定式化したものだ。ICML 2026のAIエージェント障害モードワークショップ（FAGEN、ソウル開催）に採択されている。

CBLの本質的な原因は、Transformerのself-attentionがコンテキストウィンドウ内で連結された複数モジュール間に形式的な境界を設けないという構造上の特性にある。あるモジュールのプロンプトを編集すると、変数や実行上の依存関係がなくても、他のモジュールの挙動が静かに変化してしまう。

研究チームは実運用中の求人評価エージェント（Claude Sonnet 4.6使用）を対象に144試行の実験を実施した。プロンプトの「量」「内容」「形式」の3チャンネルで変動を与えたところ、「内容」の変更のみが統計的に有意な効果（Cohen’s d = 0.63、ブートストラップ95%信頼区間がゼロを除外）を示した。ただし、最終的な推薦結果が反転するケースは観測されなかった。研究者はこれを「標準的なQAでは見えない閾値以下の影響が、大規模な意思決定において累積する」と位置づけている。

論文はさらに、CBLが既知のエージェント障害要因（敵対的プロンプトインジェクション、認知的劣化、マルチエージェントの障害伝播、プライバシー漏洩）とは独立した別の軸の問題であると主張し、プロンプト構成型エージェントの評価においてモジュール間干渉の測定を必須要件とすべきだと提言している。

原典ハイライト

「コンテンツチャンネルのみが検出可能な対応効果（Cohen’s d = 0.63）を生じさせた。推薦は一件も反転しなかったが、これは標準的なQAでは見えない閾値以下の状態であり、デプロイされたエージェントが行う数千件の意思決定にわたって累積する」（論文アブストラクトより要約）

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

プロンプトを分割管理するモジュール型AIエージェントでは、一部のプロンプトを改善・修正するだけで他の部分の挙動が変化するという「副作用」が構造的に発生しうる。しかも、その影響は個別の判断を覆すほど大きくないため、既存のQAテストでは見逃されやすい。大量の自動判断を行うエージェントでは、この微細な誤差が累積して全体的な品質劣化につながるリスクがある。

日本企業への示唆

採用審査・与信判断・コンテンツ審査など、AIエージェントを業務意思決定に組み込んでいる日本企業は、プロンプトの一部を更新するたびにシステム全体の挙動を再検証する仕組みが必要となる。論文が提示した「3チャンネルプロトコル（量・内容・形式）」は再利用可能な評価手法として公開されており、自社エージェントの品質保証プロセスに組み込むことを検討する価値がある。また、AIガバナンス・リスク管理の観点では、「個別判断は正しく見えても累積で品質が劣化する」という新しいリスク類型を品質管理フレームワークに明示的に追加することが望ましい。

背景・経緯

プロンプトを複数のモジュールに分割して管理する「プロンプト構成型エージェント」は、大規模な業務自動化において広く採用されている設計手法だ。これまでエージェント障害の研究は、敵対的入力やモデルの認知限界などに集中していたが、モジュール間の相互干渉という問題は体系的に定義・測定されてこなかった。本論文はこのギャップを埋める試みとして位置づけられ、ICML 2026の関連ワークショップに採択された。

AI News JAPAN