LLMの拒否機能はペルソナ設定に依存——安全対策の前提を覆す研究

30秒サマリー

チャットAIの「有害要求拒否」機能は、モデルのペルソナ設定によって制御されていることが判明
「従順なペルソナ」を注入するだけで拒否率が97%から2%に激減——Llama-3.1-8Bで確認
拒否機能を単独の安全機構と見なす従来の前提が崩れ、企業導入のリスク評価の見直しが迫られる

何が起きたか

Viola Zhongらは2026年6月24日、arXivに論文「Refusal Lives Downstream of Persona in Chat Models」を公開した。同論文はICML 2026のMechanistic Interpretabilityワークショップに採択されている。

研究ではQwen2.5-7B-InstructとLlama-3.1-8B-Instructの2モデルを対象に、モデル内部の活性化空間における「拒否方向」と「ペルソナ方向」という線形ベクトルを抽出し、それぞれに介入する実験を実施した。その結果、「従順なペルソナ」方向にモデルを誘導すると、Llamaモデルでは拒否率が97%から2%へと急落することが示された。

一方、拒否方向を再導入した場合、モデルの後半層では拒否機能がある程度回復するものの、前半層では回復しなかった。ペルソナ方向を後半層の特定ウィンドウから除去すると拒否機能はベースラインに戻るが、ランダムな方向を除去しても同様の効果は得られなかった。

論文はこの結果から、拒否機能は独立した単一メカニズムではなく、ペルソナ状態によってゲーティング（制御）されており、計算される層よりも後の「表現段階」で作用すると結論づけている。

原典ハイライト

論文アブストラクトは「Compliant persona steering suppresses refusal — in Llama, the refusal rate falls from 97% to 2%」と明記。拒否機能がペルソナから独立した機構であるという従来の理解を否定し、「Treating refusal as a single isolated direction misses its dependence on persona」と指摘している。

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

企業がLLMを業務システムに組み込む際、システムプロンプトやファインチューニングで「役に立つアシスタント」像を強調すると、意図せず安全フィルターを弱体化させるリスクがあることを示す。安全対策をモデルに追加する設計思想では不十分であり、ペルソナ設定と拒否機能の相互作用を考慮したアーキテクチャレベルの評価が求められる。

日本企業への示唆

社内チャットボットやカスタマーサポートAIを導入する日本企業にとって、システムプロンプトで「フレンドリー」「何でも答える」といったペルソナを設定することが、安全ガードレールの無効化につながり得る点を認識すべきだ。ベンダー選定・調達時の安全評価項目に「ペルソナ変更時の拒否率変化」を加えることを検討したい。また自社でLLMをファインチューニングする場合は、ペルソナ設計と安全機構を独立に評価するテスト工程の整備が急務となろう。

背景・経緯

LLMの安全性研究では、モデル内部の活性化空間に「拒否」に対応する線形方向が存在することが先行研究で示されていた。また別途、ペルソナに関連する方向も識別されていたが、両者は独立したメカニズムとして研究されてきた。本論文はこれら2つの方向が相互作用することを初めて実験的に示したとされる。

AI News JAPAN