30秒サマリー
- Z.AIが長時間タスク向け新フラッグシップモデル「GLM-5.2」をMITライセンスでオープンソース公開
- 実用に耐える100万トークンのコンテキスト長を実現し、長時間コーディングエージェント用途に対応
- 長時間コーディングベンチマーク3種全てでオープンソース最高位を達成、Claude Opus 4.8に数ポイント差
何が起きたか
Z.AI(zai-org)は2026年6月17日、長時間タスクに特化した新フラッグシップAIモデル「GLM-5.2」をHugging Faceにて発表した。ライセンスはMITで、地域制限なく利用可能なオープンソースモデルとして公開されている。
GLM-5.2の最大の特徴は、実用に耐える100万トークンのコンテキスト長だ。原文の推論エンジン最適化に関する記述中に「最大コンテキスト長を200Kから100万トークンへ拡張する」との表現があり、前世代モデルのコンテキスト長が200Kであったことが示唆されている。同社は「100万トークンの受け入れは容易に主張できるが、実際のエンジニアリング作業下で信頼性を維持するのははるかに難しい」と述べており、大規模コード実装・自動リサーチ・性能最適化・複雑なデバッグなどのシナリオを対象とした長文脈トレーニングを大幅に拡充したとしている。
長時間コーディングベンチマーク3種(FrontierSWE・PostTrainBench・SWE-Marathon)においていずれもオープンソースモデル最上位となった。FrontierSWEではClaude Opus 4.8に1%差、GPT-5.5を1%上回り、Claude Opus 4.7を11%上回る結果を記録した。標準コーディングベンチマークのTerminal-Bench 2.1では81.0を記録し、前世代GLM-5.1の63.5から大幅に向上、Opus 4.8の85.0に数ポイント差まで迫っている。SWE-bench Proでは62.1(GLM-5.1は58.4)を達成した。
アーキテクチャ面では「IndexShare」と呼ぶ新技術を導入し、4つのスパースアテンション層ごとに同一インデクサを再利用することで、100万トークン処理時における1トークンあたりのFLOPsを2.9倍削減した。また投機的デコーディング用のMTPレイヤーを改善し、受け入れ長を最大20%向上させている。さらに性能とレイテンシをユーザー側が選択できる「エフォートレベル制御」機能も追加された。
原典ハイライト
GLM-5.2は3つの長時間コーディングベンチマーク全てでオープンソース最高位を達成。FrontierSWEでClaude Opus 4.8との差は1%にとどまり、GPT-5.5およびClaude Opus 4.7をそれぞれ1%・11%上回る。IndexShareにより100万トークン処理時のFLOPsを2.9倍削減し、MTPレイヤー改善でデコーディング効率を最大20%向上。MITライセンスで地域制限なし。
出典: Hugging Face Blog(公式ブログ)
So What?(なぜ重要か)
従来、100万トークン規模の長文脈処理はクローズドな商用モデルの専売特許とされてきたが、GLM-5.2はその水準にオープンソースモデルが実用レベルで到達したことを示す。コーディングエージェントや自動化研究など、数時間〜数十時間規模の長時間タスクを外部APIに依存せず自社インフラ上で実行できる選択肢が生まれる。MITライセンスにより商用利用・改変・再配布が自由であることも、企業採用の障壁を大きく下げる。
日本企業への示唆
日本企業にとって最も直接的な示唆は「大規模コードベースの自動解析・改修」と「長時間エージェント処理の内製化」の両面だ。100万トークン規模のコンテキストにより、大規模レガシーシステムのコード全体や長大な仕様書・契約文書群を一度に処理できる可能性がある。商用APIへの依存や情報流出リスクを懸念するシステムインテグレーターや金融・製造業の企業は、自社GPUクラスター上にGLM-5.2を展開することで、同等水準の長文処理を内部完結させる検討を始める段階に来ていると編集部はみる。エフォートレベル制御機能は、処理速度重視か精度重視かをタスクごとに切り替えられるため、バッチ処理とリアルタイム処理が混在する実務環境にも適している。
背景・経緯
原文の推論エンジン最適化に関する記述中に「最大コンテキスト長を200Kから100万トークンへ拡張する」との表現があり、直接の前世代モデルからの拡張であることが示唆されている。ただし原文はGLM-5.1の仕様を独立した形で明示しているわけではなく、この点は文脈からの読み取りとなる。長時間タスク向けの強化学習後学習(Agentic RL)には独自の分散学習フレームワーク「slime」を使用し、10以上のエキスパートモデルのマージを含むOPD学習全体を約2日間で完了したと原文は述べている。RL学習時に発生する報酬ハッキング(評価用データへの不正アクセス等)への対策も開発上の重要課題として原文で言及されている。なお、GLMシリーズの組織的な起源については原文では言及がない。



