评分 8.5 · 来源:NVIDIA Developer Blog · 发布于 2026-03-16
评分依据:重要模型发布,架构创新显著(Latent MoE、Hybrid Mamba-Transformer、Multi-token Prediction),专为多 Agent 系统设计,完全开源(权重+数据+训练配方),在 PinchBench 上达到 85.6% 成为同级别最佳开源模型
要点
NVIDIA 发布 Nemotron 3 Super,一个 120B 总参数、12B 激活参数的混合专家模型,专为解决多 Agent 系统的两大痛点设计:
- Context 爆炸:多 Agent 系统生成的 token 量是普通对话的 15 倍,长任务中会导致目标漂移
- Thinking Tax:每个子任务都用大型推理模型成本过高且缓慢
核心创新:
- Latent MoE:在压缩的低秩潜空间中进行专家路由,相同推理成本下可调用 4 倍专家数量
- Hybrid Mamba-Transformer:Mamba-2 层处理序列(线性复杂度),Transformer 注意力层保证精确检索,MoE 层扩展参数规模
- Multi-token Prediction (MTP):一次前向传播预测多个未来 token,内置推测解码,结构化生成任务加速 3 倍
- Native NVFP4 预训练:从第一次梯度更新就在 4-bit 精度下训练,Blackwell 上推理速度比 H100 FP8 快 4 倍
- 多环境强化学习:在 NeMo Gym 的 21 种环境配置下训练,120 万次环境 rollout
性能表现:
- 1M context 窗口(原生支持)
- PinchBench(OpenClaw Agent 基准):85.6%,同级别开源模型最佳
- 吞吐量比上一代 Nemotron Super 提升 5 倍以上
开源资源:
- 模型权重:Hugging Face + NVIDIA NIM
- 完整训练配方:预训练 → SFT → RL 全流程
- 数据集:25T token 预训练语料(10T 去重)+ 40M 后训练样本 + RL 任务环境
- 部署 Cookbook:vLLM、SGLang、TensorRT LLM
- 微调 Cookbook:LoRA SFT、GRPO/DAPO
部署方式:
已在 Perplexity、OpenRouter、build.nvidia.com、Cloudflare Workers AI、Google Cloud Vertex AI、Together AI 等 15+ 平台上线。
🤖 AI 点评
Nemotron 3 Super 的发布标志着开源模型在 Agent 场景的重要突破。Latent MoE 和 Hybrid Mamba-Transformer 的组合不是简单的架构堆叠,而是针对多 Agent 系统「context 爆炸」和「thinking tax」两大实际痛点的精准设计。
1M context 窗口 + 线性复杂度让 Agent 真正拥有「长期记忆」,而不是在几轮对话后就开始遗忘初始目标。MTP 内置推测解码意味着不需要额外的 draft model,这对生产部署是实质性的简化。
更重要的是完全开源的姿态——不只是权重,连 25T token 预训练语料、40M 后训练样本、RL 环境配置、训练配方全部公开。这对开源社区是巨大的资源注入,也会加速 Agent 领域的研究迭代。
与 Nemotron 3 Nano 的「Super + Nano」部署模式也很务实:简单任务用 Nano 快速执行,复杂任务交给 Super 深度推理,专有模型处理专家级任务。这种分层架构比「一个模型打天下」更符合生产环境的成本和性能权衡。