富士通、Transformer比最大475倍の処理性能を持つLLMアーキテクチャ「PHOTON」を開発

30秒サマリー

富士通がGPU当たりの処理スループットをTransformerの最大475倍とする新LLMアーキテクチャ「PHOTON」を発表
意味単位の階層処理と「マルチクエリー統合技術」の2つの仕組みでGPUメモリ効率を大幅改善
7月のACL 2026でオーラル発表予定。LLM運用コスト削減につながる国産技術として注目

何が起きたか

富士通は2026年6月24日、少ないGPUリソースでLLMを動作させる新アーキテクチャ「PHOTON（Parallel Hierarchical Operation for TOp-down Networks）」を開発したと発表した。GPU当たりの処理スループットが既存のTransformerアーキテクチャに比べて最大475倍に達するとしており、LLM運用に必要なGPU数の削減とコスト圧縮への貢献を訴求している。

PHOTONは主に2つの技術的特徴を持つ。第一に、文章をトークン単位で全組み合わせ計算するTransformerとは異なり、意味のまとまりを単位とした階層的処理を採用することで計算量を抑える。第二に「マルチクエリー統合技術」として、一つの問いに対し複数の問いや回答候補を生成・統合することで、1回の推論でより安定した性能を実現する。

実験は6億・9億・12億パラメータの3モデルで実施された。12億パラメータモデルでは、わずかな性能低下と引き換えにTransformerの約475倍のマルチクエリー処理能力を達成したとしている。また、KVキャッシュの小ささにより同一GPUメモリ上で複数の生成を並列実行できる点も利点として挙げられており、9クエリーを束ねることでTransformerと同水準の性能に達したと報告している。

本成果は2026年7月2日から米サンディエゴで開催される自然言語処理分野の国際会議「ACL 2026」のオーラルセッションで発表される予定だ。

原典ハイライト

12億パラメータモデルでTransformer比最大475倍のマルチクエリー処理能力を達成。KVキャッシュ削減により同一GPUメモリで複数生成を並列実行できる点が核心的な優位性。ACL 2026オーラル採択により査読を経た成果として国際的に認められた形となっている。

出典: ITmedia AI＋（報道）

So What?（なぜ重要か）

LLM運用コストの大部分を占めるGPU調達・稼働費用を大幅に削減できる可能性を持つアーキテクチャが国内から登場した。NVIDIAのGPU供給制約や高騰が続く中、同じハードウェアでより多くの推論処理をこなせる技術は、AI導入コストの構造的課題に対するアプローチとして実用的な意義を持つ。マルチエージェント処理に強みを持つ設計は、複雑なビジネスプロセス自動化への応用も視野に入る。

日本企業への示唆

GPU不足・コスト高騰を理由にLLM活用を見送ってきた日本企業にとって、PHOTONベースのモデルやサービスが実用化されれば導入障壁が下がる可能性がある。特に多数ユーザーが同時利用する社内チャットボットや、複数エージェントが協調するワークフロー自動化などの用途では処理効率向上の恩恵を受けやすい。現時点では研究発表段階であり製品化時期は原文に言及がないが、富士通との技術連携や調達交渉の動向を注視しておくことが望ましい。また、国産LLM技術の国際的評価（ACL採択）はベンダー選定時の技術信頼性評価にも参考となる。

背景・経緯

近年のLLMは推論時に長く考えさせるほど性能が向上することが知られており、長文処理や多数ユーザーの同時利用ニーズが高まっている。一方でTransformerはトークン間の全組み合わせ計算とKVキャッシュ増大により、こうした処理でGPUメモリ・速度のボトルネックが生じやすい構造的課題を抱えていた。PHOTONはこの課題への解決策として開発された。