NVIDIAがBlackwell向け「DFlash」公開、LLM推論を最大15倍高速化

30秒サマリー

NVIDIAがBlackwell GPU上でLLM推論を最大15倍高速化する投機的デコーディング技術「DFlash」を発表
SGLang・vLLM・TensorRT-LLMに対応し、コード変更なしで既存ワークフローに統合可能
20種のモデルチェックポイントをHugging Faceで公開、Llama・Gemma・Qwen等の主要モデルをカバー

何が起きたか

NVIDIAは2026年6月23日、Blackwell GPU上でLLM推論性能を最大15倍向上させる投機的デコーディング技術「DFlash」に関する技術ブログを公開した。DFlashはUCサンディエゴの研究チームが2026年2月に論文発表したオープンソースの「ブロック拡散モデル」であり、NVIDIAとオープンソースコミュニティが推論フレームワークへの統合を支援した。

従来の投機的デコーディングは小規模なドラフトモデルがトークンを逐次生成するため、速度向上に限界があった。DFlashはこれを「ブロック拡散ドラフター」に置き換え、複数の候補トークンを単一の順伝播で並列予測する。ターゲットモデルが並列検証を行う仕組みは維持されるため、出力品質は変わらないとしている。

具体的な性能として、8台のNVIDIA DGX B300を使用したTensorRT-LLM環境でgpt-oss-120bを動作させた場合、ユーザーあたり500〜600トークン/秒の高インタラクティブ領域において、自己回帰デコーディング比で15倍以上のスループット向上を記録。既存の最先端手法EAGLE-3比では1.5倍高速となった。Llama 3.1 8BではEAGLE-3比でインタラクティビティがほぼ2倍に向上し、Gemma 4 31BはvLLM上で最大5.8倍、Qwen3 8-BはSGLang上で最大5.1倍のスループット向上を達成している。

開発者向けには、vLLMでは設定ファイルの変更のみでEAGLE-3からDFlashへの切り替えが可能で、コードの書き直しは不要。SGLangも同様にアルゴリズム指定とチェックポイントの変更のみで移行できる。BlackwellおよびHopper GPU向けの20種のモデルチェックポイントがHugging Faceで公開されており、対応モデルファミリーにはQwen、Kimi K2.6、Llama、Gemma、gpt-ossが含まれる。

原典ハイライト

NVIDIAの公式技術ブログによれば、8台のDGX B300を用いたgpt-oss-120bのベンチマークで、高インタラクティブ領域においてDFlashが自己回帰デコーディング比15倍超のスループットを記録。コーディング・RAG・推論・ライティング・多言語・要約の6タスクにわたりEAGLE-3を一貫して上回り、平均でgpt-oss-120bが2.3倍、Llama 3.1 8Bが2.8倍のインタラクティビティ向上を示した。

出典: NVIDIA Technical Blog（公式ブログ）

So What?（なぜ重要か）

LLM推論コストの大半はトークン生成の逐次性によるGPU稼働率の低下に起因する。DFlashはブロック並列ドラフティングによってこのボトルネックを構造的に解消し、同一の応答品質・同一のハードウェアで処理ユーザー数を大幅に増やせることを意味する。加えてコードの改修不要で既存フレームワークに組み込めるため、実運用への移行コストが低く、Blackwell GPUを導入済みまたは導入予定の企業にとって即効性の高いコスト削減策となりうる。

日本企業への示唆

Blackwell GPUの導入を検討している日本企業の情報システム・AI基盤担当者は、DFlashを前提とした処理能力試算を行うべきだろう。同一スループットを達成するために必要なGPU台数が減少する可能性があり、インフラ投資計画の見直しにつながる。既にHopperベースのクラスターを運用中の場合も、Hugging Faceに公開されたHopper向けチェックポイントを用いてDFlashの効果を先行検証できる。コード改修が不要な点は、社内承認プロセスや技術リスクを抑えた段階的導入を可能にし、特にLLMをアジェンティックワークフローや顧客向けチャットシステムに活用している企業にとって優先度の高い評価項目となる。

背景・経緯

投機的デコーディングは、軽量ドラフトモデルが先読みしたトークンを大規模ターゲットモデルが並列検証することで推論を高速化する手法。従来手法のEAGLE-3もその一種だが、ドラフト段階は依然逐次的だった。DFlashはUCサンディエゴの研究チームが2026年2月に発表した論文に基づき、NVIDIAとオープンソースコミュニティが連携してフレームワーク統合を整備した。Blackwell Ultraアーキテクチャは2つのダイ間を10TB/sのチップ間インターコネクトで結合し、160SM・640基の第5世代Tensor Coreを搭載、15PFLOPSのNVFP4演算性能を持つとNVIDIAは説明している。

AI News JAPAN