30秒サマリー
- Google DeepMindが開発した拡散型テキスト生成モデルがNVIDIAハードウェア向けに最適化・公開された
- 従来の逐次生成と異なり256トークンを並列生成し、H100で最大1000、DGX Stationで最大2000トークン/秒を達成
- Hugging Face・NVIDIA NIM・NeMo AutoModelを通じてプロトタイプから本番運用・ファインチューニングまで対応
何が起きたか
Google DeepMindが開発し、NVIDIAが最適化サポートを提供する拡散型テキスト生成モデル「DiffusionGemma」が2026年6月12日にNVIDIA公式ブログで発表された。パラメータ総数25.2B(アクティブ3.8B)のGemma 4 26B A4B MoEアーキテクチャを採用し、最大256Kトークンのコンテキスト長に対応する。
最大の特徴は、従来モデルが1トークンずつ逐次生成するのに対し、拡散ベースのノイズ除去により256トークンを並列生成する点だ。これにより、NVIDIA H100 Tensor Core GPU 1枚で最大1,000トークン/秒、DGX Sparkで最大150トークン/秒、DGX Stationで最大2,000トークン/秒という処理速度をNVIDIAは公表している。
開発者向けの提供経路としては、Hugging Face(BF16チェックポイント、NVIDIAモデルオプティマイザー経由のNVFP4量子化版)、NVIDIA NIM(OpenAI互換API対応のコンテナ型推論マイクロサービス)、NVIDIA NeMo AutoModel(HuggingFaceチェックポイントからの直接ファインチューニング)の3経路が用意されている。また、build.nvidia.comでは無料プロトタイピング向けのGPUアクセラレーテッドエンドポイントも提供される。
原典ハイライト
NVIDIAの公式技術ブログは「DiffusionGemmaはトークンを逐次ではなく並列生成し、エンタープライズ向けにサービングコストの低減・高い同時実行性・応答性の向上を実現する」と説明。H100単体で最大1,000トークン/秒という具体的な数値を明示している。
出典: NVIDIA Technical Blog(公式ブログ)
So What?(なぜ重要か)
チャットボットやコパイロット、エージェント型AIなど、リアルタイム応答が求められるアプリケーションでは、生成速度のボトルネックがUXとサーバーコストの両面で課題だった。拡散型並列生成というアーキテクチャの転換により、同一ハードウェアでの同時ユーザー数増加とインフラコスト削減が同時に狙える可能性がある。ただし発表数値はNVIDIA側の検証値であり、実業務での再現性は個別検証が必要だ。
日本企業への示唆
生成AI導入・拡張を検討する日本企業にとって、GPU調達コストや応答速度の制約が障壁になっているケースは多い。DiffusionGemmaはDGX SparkやRTX PRO等ローカル環境でも動作し、NVIDIA NIMを使えばオンプレミス・クラウド・ハイブリッドに対応したOpenAI互換APIとして展開できる。まずbuild.nvidia.comの無料エンドポイントで既存ユースケース(社内チャットボット、ドキュメント生成等)に対するスループット比較検証を行い、コスト試算を見直す材料にすることを推奨する。ファインチューニングもNeMo AutoModel経由でHugging Faceチェックポイントから直接実施できるため、業界特化モデルの内製化コストが下がる可能性もある。
背景・経緯
大規模言語モデルの推論は自己回帰(逐次)生成が主流であり、長文生成ほど待ち時間が増大するという構造的制約があった。拡散モデルは画像生成分野で普及しているアプローチだが、テキスト生成への応用(拡散型言語モデル)は比較的新しい研究領域。DiffusionGemmaはGoogle DeepMindがGemmaアーキテクチャをベースにこれを実装したモデルとして位置づけられる。NVIDIAはDay 0サポートとして各プラットフォーム向けの最適化・ガイドを同時提供した。

