AI News JAPAN

世界の最新AIニュースを毎朝配信(24時間以内)

拡散型AI「DiffusionGemma」、NVIDIAで最大2000トークン/秒を実現

30秒サマリー

  • Google DeepMindが開発した拡散型テキスト生成モデルがNVIDIAハードウェア向けに最適化・公開された
  • 従来の逐次生成と異なり256トークンを並列生成し、H100で最大1000、DGX Stationで最大2000トークン/秒を達成
  • Hugging Face・NVIDIA NIM・NeMo AutoModelを通じてプロトタイプから本番運用・ファインチューニングまで対応

何が起きたか

Google DeepMindが開発し、NVIDIAが最適化サポートを提供する拡散型テキスト生成モデル「DiffusionGemma」が2026年6月12日にNVIDIA公式ブログで発表された。パラメータ総数25.2B(アクティブ3.8B)のGemma 4 26B A4B MoEアーキテクチャを採用し、最大256Kトークンのコンテキスト長に対応する。

最大の特徴は、従来モデルが1トークンずつ逐次生成するのに対し、拡散ベースのノイズ除去により256トークンを並列生成する点だ。これにより、NVIDIA H100 Tensor Core GPU 1枚で最大1,000トークン/秒、DGX Sparkで最大150トークン/秒、DGX Stationで最大2,000トークン/秒という処理速度をNVIDIAは公表している。

開発者向けの提供経路としては、Hugging Face(BF16チェックポイント、NVIDIAモデルオプティマイザー経由のNVFP4量子化版)、NVIDIA NIM(OpenAI互換API対応のコンテナ型推論マイクロサービス)、NVIDIA NeMo AutoModel(HuggingFaceチェックポイントからの直接ファインチューニング)の3経路が用意されている。また、build.nvidia.comでは無料プロトタイピング向けのGPUアクセラレーテッドエンドポイントも提供される。

原典ハイライト

NVIDIAの公式技術ブログは「DiffusionGemmaはトークンを逐次ではなく並列生成し、エンタープライズ向けにサービングコストの低減・高い同時実行性・応答性の向上を実現する」と説明。H100単体で最大1,000トークン/秒という具体的な数値を明示している。

出典: NVIDIA Technical Blog(公式ブログ)

So What?(なぜ重要か)

チャットボットやコパイロット、エージェント型AIなど、リアルタイム応答が求められるアプリケーションでは、生成速度のボトルネックがUXとサーバーコストの両面で課題だった。拡散型並列生成というアーキテクチャの転換により、同一ハードウェアでの同時ユーザー数増加とインフラコスト削減が同時に狙える可能性がある。ただし発表数値はNVIDIA側の検証値であり、実業務での再現性は個別検証が必要だ。

日本企業への示唆

生成AI導入・拡張を検討する日本企業にとって、GPU調達コストや応答速度の制約が障壁になっているケースは多い。DiffusionGemmaはDGX SparkやRTX PRO等ローカル環境でも動作し、NVIDIA NIMを使えばオンプレミス・クラウド・ハイブリッドに対応したOpenAI互換APIとして展開できる。まずbuild.nvidia.comの無料エンドポイントで既存ユースケース(社内チャットボット、ドキュメント生成等)に対するスループット比較検証を行い、コスト試算を見直す材料にすることを推奨する。ファインチューニングもNeMo AutoModel経由でHugging Faceチェックポイントから直接実施できるため、業界特化モデルの内製化コストが下がる可能性もある。

背景・経緯

大規模言語モデルの推論は自己回帰(逐次)生成が主流であり、長文生成ほど待ち時間が増大するという構造的制約があった。拡散モデルは画像生成分野で普及しているアプローチだが、テキスト生成への応用(拡散型言語モデル)は比較的新しい研究領域。DiffusionGemmaはGoogle DeepMindがGemmaアーキテクチャをベースにこれを実装したモデルとして位置づけられる。NVIDIAはDay 0サポートとして各プラットフォーム向けの最適化・ガイドを同時提供した。