輝達 (NVDA-US) 周三 (11 日) 宣布推出新一代大型語言模型「Nemotron 3 Super」,主打支援快速發展的「代理人工智慧」(Agentic AI) 應用。該模型擁有 1,200 億參數,並透過混合專家架構 (Mixture-of-Experts, MoE) 與新一代 Blackwell 平台優化,號稱可為 AI 代理系統帶來最高 5 倍運算吞吐量與更高推論效率。
輝達表示,Nemotron 3 Super 屬於 Nemotron 3 系列的一部分,是一款開放權重 (Open Weights) 的 AI 模型,可供企業與開發者在資料中心、雲端或本地環境部署。該模型採用 1,200 億參數架構,但在推論階段僅啟用約 120 億參數,以降低運算成本並提升效能。
該公司指出,隨著企業開始從聊天機器人邁向多代理 (Multi-Agent)AI 系統,運算需求正快速增加。這類系統在執行任務時,需要持續共享上下文與推理過程,往往會產生遠高於一般對話 AI 的資料量,導致成本上升並拖慢運算速度。
為解決這些問題,Nemotron 3 Super 提供最高 100 萬 Token 的上下文視窗,使 AI 代理能夠在記憶中保留完整工作流程,減少任務過程中偏離原始目標的情況。輝達表示,該模型在效率與開放性方面已在 Artificial Analysis 評比中排名第一,並在 DeepResearch Bench 與 DeepResearch Bench II 等研究型 AI 測試排行榜中取得領先表現。
混合架構提升 AI 代理運算效率
Nemotron 3 Super 採用混合專家架構結合多項新技術,以提升推論效率與準確度。模型同時整合 Mamba 層與 Transformer 層,其中 Mamba 負責提升記憶體與運算效率,Transformer 則強化推理能力。
此外,該模型採用「潛在專家」(Latent MoE) 技術,在生成下一個 Token 時可同時啟用多個專家模型,並以接近單一模型的成本提供更高準確度。輝達表示,該設計可使整體推論速度提升至前一代 Nemotron Super 模型的 3 倍以上。
在硬體方面,Nemotron 3 Super 針對輝達 Blackwell 平台進行最佳化,並採用 NVFP4 精度格式,可在保持準確度的同時降低記憶體需求,推論速度可比 Hopper 平台的 FP8 運算快 4 倍。
瞄準企業 AI 代理應用市場
輝達表示,Nemotron 3 Super 主要定位為多代理 AI 系統中的核心模型,可處理複雜子任務。例如在軟體開發領域,AI 代理可一次載入完整程式碼庫,實現從程式生成到除錯的端到端開發流程。
在金融分析與研究領域,模型則可同時處理數千頁文件,減少長時間推理過程中的重複計算,提升分析效率。此外,該模型也具備高準確度的工具調用能力,可在大型函式庫中自動選擇正確功能,降低錯誤風險,適用於網路安全與自動化運維等高風險環境。
目前已有多家企業開始導入該模型,包括搜尋平台 Perplexity、軟體開發工具公司 CodeRabbit、Factory 與 Greptile,以及生命科學機構 Edison Scientific 與 Lila Sciences 等。
在企業軟體領域,Amdocs、Palantir、Cadence、達梭系統 (Dassault Systèmes) 與西門子 (Siemens) 也正部署或客製化該模型,用於電信、網路安全與半導體設計等工作流程自動化。
Nemotron 3 Super 目前已在輝達開發者平台、Hugging Face 與 Perplexity 等平台提供,並透過 Google Cloud Vertex AI、Oracle Cloud Infrastructure 等雲端服務部署。亞馬遜 (AMZN-US)AWS 與微軟 (MSFT-US)Azure 未來也將提供相關服務。
輝達表示,隨著企業 AI 應用逐漸從單一模型走向多代理架構,像 Nemotron 3 Super 這類高效率 AI 模型將成為下一階段 AI 基礎設施的重要核心。
