拡散型AI「DiffusionGemma」、NVIDIAで最大2000トークン/秒を実現

30秒サマリー

Google DeepMindが開発した拡散型テキスト生成モデルがNVIDIAハードウェア向けに最適化・公開された
従来の逐次生成と異なり256トークンを並列生成し、H100で最大1000、DGX Stationで最大2000トークン/秒を達成
Hugging Face・NVIDIA NIM・NeMo AutoModelを通じてプロトタイプから本番運用・ファインチューニングまで対応

何が起きたか

Google DeepMindが開発し、NVIDIAが最適化サポートを提供する拡散型テキスト生成モデル「DiffusionGemma」が2026年6月12日にNVIDIA公式ブログで発表された。パラメータ総数25.2B（アクティブ3.8B）のGemma 4 26B A4B MoEアーキテクチャを採用し、最大256Kトークンのコンテキスト長に対応する。

最大の特徴は、従来モデルが1トークンずつ逐次生成するのに対し、拡散ベースのノイズ除去により256トークンを並列生成する点だ。これにより、NVIDIA H100 Tensor Core GPU 1枚で最大1,000トークン/秒、DGX Sparkで最大150トークン/秒、DGX Stationで最大2,000トークン/秒という処理速度をNVIDIAは公表している。

開発者向けの提供経路としては、Hugging Face（BF16チェックポイント、NVIDIAモデルオプティマイザー経由のNVFP4量子化版）、NVIDIA NIM（OpenAI互換API対応のコンテナ型推論マイクロサービス）、NVIDIA NeMo AutoModel（HuggingFaceチェックポイントからの直接ファインチューニング）の3経路が用意されている。また、build.nvidia.comでは無料プロトタイピング向けのGPUアクセラレーテッドエンドポイントも提供される。

原典ハイライト

NVIDIAの公式技術ブログは「DiffusionGemmaはトークンを逐次ではなく並列生成し、エンタープライズ向けにサービングコストの低減・高い同時実行性・応答性の向上を実現する」と説明。H100単体で最大1,000トークン/秒という具体的な数値を明示している。

出典: NVIDIA Technical Blog（公式ブログ）

So What?（なぜ重要か）

チャットボットやコパイロット、エージェント型AIなど、リアルタイム応答が求められるアプリケーションでは、生成速度のボトルネックがUXとサーバーコストの両面で課題だった。拡散型並列生成というアーキテクチャの転換により、同一ハードウェアでの同時ユーザー数増加とインフラコスト削減が同時に狙える可能性がある。ただし発表数値はNVIDIA側の検証値であり、実業務での再現性は個別検証が必要だ。

日本企業への示唆

生成AI導入・拡張を検討する日本企業にとって、GPU調達コストや応答速度の制約が障壁になっているケースは多い。DiffusionGemmaはDGX SparkやRTX PRO等ローカル環境でも動作し、NVIDIA NIMを使えばオンプレミス・クラウド・ハイブリッドに対応したOpenAI互換APIとして展開できる。まずbuild.nvidia.comの無料エンドポイントで既存ユースケース（社内チャットボット、ドキュメント生成等）に対するスループット比較検証を行い、コスト試算を見直す材料にすることを推奨する。ファインチューニングもNeMo AutoModel経由でHugging Faceチェックポイントから直接実施できるため、業界特化モデルの内製化コストが下がる可能性もある。

背景・経緯

大規模言語モデルの推論は自己回帰（逐次）生成が主流であり、長文生成ほど待ち時間が増大するという構造的制約があった。拡散モデルは画像生成分野で普及しているアプローチだが、テキスト生成への応用（拡散型言語モデル）は比較的新しい研究領域。DiffusionGemmaはGoogle DeepMindがGemmaアーキテクチャをベースにこれを実装したモデルとして位置づけられる。NVIDIAはDay 0サポートとして各プラットフォーム向けの最適化・ガイドを同時提供した。

AI News JAPAN