AWS、NVIDIA Blackwell GPU搭載P6インスタンスをSageMakerで提供開始

30秒サマリー

AWSがSageMaker AIトレーニングジョブにNVIDIA Blackwell GPU搭載の「ml.p6-b200.48xlarge」インスタンスを追加
B200は最大180GB、B300は268GBのHBMメモリを搭載し、大規模モデルの学習制約を大幅に緩和
精度フォーマット（FP8/MXFP8/NVFP4）の選択とアクティベーションチェックポイントの活用が性能最大化の鍵

何が起きたか

AWSは、NVIDIA Blackwell GPU（B200）を搭載した「P6-B200」インスタンス（ml.p6-b200.48xlarge）をAmazon SageMaker AIのトレーニングジョブで利用可能にした。1ノードにBlackwell GPUを8基搭載し、Flexible Training Planを通じて容量予約と費用管理が行える。

Blackwellアーキテクチャの主な特徴として、NVLink 5による最大1.8TB/秒のGPU間双方向帯域幅、B200で180GB・B300で268GBのHBMメモリ容量、第5世代Tensor CoreによるFP8/MXFP8/NVFP4の低精度フォーマットへのハードウェアアクセラレーションが挙げられる。これにより、従来はマルチノード構成が必要だったモデルを、8GPU単一ノードで学習できるケースが増えるとAWSは説明している。

AWSが公開したベンチマーク例では、パラメータ数10億（1B）のLLMをMXFP8精度・シーケンス長8Kで学習した場合、アクティベーションチェックポイントを無効にしたバッチサイズ1の構成ではスループットが約6,000トークン/秒だったのに対し、同機能を有効にしてバッチサイズを16に拡大すると約51,000トークン/秒（約8倍）に向上したとしている。

対象モデルサイズは1Bから64Bパラメータ。分散学習フレームワークとしてPyTorchのFSDPを用いる構成が紹介されており、精度フォーマットの選択指針として、14B以下の小規模モデルにはFP8、14B超の大規模モデルにはFP8またはMXFP8が推奨されている。NVFP4は大規模モデルで最高スループットを発揮するが、Megatron Coreのレシピ活用など相応のエンジニアリング工数が必要とされる。

原典ハイライト

AWSの公式ブログは、アクティベーションチェックポイントとバッチサイズの組み合わせによって1Bモデルのスループットが約8倍に向上した実測値を示すとともに、14B超のモデルではアクティベーションチェックポイントなしでは多くの構成でCUDA OOMエラーが発生するとし、同機能を「オプションではなく前提条件」と明記している点が核心。

出典: AWS Machine Learning Blog（公式ブログ）

So What?（なぜ重要か）

従来マルチノード・大規模クラスターが必要だった数十Bパラメータ級のモデル学習が、SageMaker上の単一ノード8GPU構成で完結する可能性が生じた。ネットワーク通信オーバーヘッドの削減とインフラコストの低減が同時に見込める。また、Flexible Training Planにより容量確保と費用予測が可能になるため、大規模学習ジョブの計画立案が容易になる。

日本企業への示唆

日本企業が独自LLMや業務特化モデルを開発する場合、これまでマルチノードHPCクラスターの調達・運用が障壁となっていた。P6-B200インスタンスとSageMakerの組み合わせにより、インフラ管理の負担を抑えつつ数十Bパラメータ規模の学習に踏み込めるチャンスとなる。まず自社モデルのパラメータ数と現在の学習ボトルネック（メモリ不足かスループット不足か）を確認し、14B以下ならFP8＋バッチサイズ最適化、14B超ならアクティベーションチェックポイントを前提とした構成設計を検討すべき。Service Quotaの確認とFlexible Training Planの事前申請が導入の初期ステップとなる。

背景・経緯

Amazon SageMaker AIはAWSが提供するフルマネージドのML基盤サービスで、インスタンスのプロビジョニングやコンテナオーケストレーションをユーザーが意識せず利用できる。NVIDIAのBlackwellアーキテクチャは前世代から大幅にメモリ容量と帯域幅を拡張しており、今回のブログはそのBlackwell GPUをSageMakerのトレーニングジョブで活用するための具体的な設定指針を提供することを目的として公開された。

AI News JAPAN