中國 AI 大模型在春節前夕掀起技術軍備競賽。智譜、Minimax、DeepSeek 等大廠密集發表新一代模型,程式設計能力與智能體 (Agent) 效能成為核心戰場,其中智譜 GLM-5 參數規模激增至 744B,Minimax M2.5 以 10B 小模型實現百倍能效比,DeepSeek 更將上下文視窗擴至百萬 Token 級,可一次處理整本小說。
Minimax 周四 (12 日) 推出專為智能體設計的 M2.5 模型,啟動參數量僅 10B,卻實現 100 TPS 超高吞吐量,程式設計與智能體性能比肩 Claude Opus 4.6。
M2.5 在 Excel 高階處理、深入研究、PPT 製作等辦公室場景中達到業界領先,支援 PC、App、跨端全端開發。
智譜發布的 GLM-5 則將參數擴展至 744B,前端開發與長程任務表現較前代提升超 20%,逼近 Claude Opus 4.5 水準。
M2.5 與 GLM-5 兩款模型的突破性進展引發資本市場震動,智譜在港股近四個交易日股價翻倍,從 203 港元飆升至 443 港元。
《科創板日報》報導,程式設計能力的飛躍正改寫軟體開發規則。根據 Anthropic 報告指出,AI 大模型已將傳統需要 4-8 個月的時間,壓縮至兩周完成。
Anthropic 執行長 Dario Amodei 表示,AI 將編寫 90% 軟體程式碼的時代正加速來臨,這動搖了傳統軟體「按人頭訂閱」的獲利模式,推動產業轉型為「按使用計費」。
IDC 分析師孫振亞說:「程式碼與工具呼叫能力讓模型具備執行力,長上下文和多模態擴展了感知維度,這些是智能體創造價值的基礎。」
儘管技術突飛猛進,AI 智能體規模化仍面臨成本、可靠性與安全三大瓶頸。首先,智能體任務複雜度提升導致單次 Token 消耗激增。DeepSeek 雖將上下文擴展到 1M Token,但企業私有化部署的硬體投入與維運成本仍限制 ROI 轉換。
其次,智能體的可靠性仍存疑,幻覺問題在多步驟執行中易引發錯誤累積。某金融機構測試顯示,AI 生成風控報告的準確率僅 82%,遠低於人工 95% 標準。
治理架構缺失則是第三大瓶頸。由於權限管理、稽核追溯、責任界定等機制尚未完善,灼識諮詢分析師指出,企業不敢讓 AI 自主決策,核心在於出問題無人擔責。
產業共識已從參數競賽轉向技術差異化與場景落地。除程式設計能力外,阿里千問 Qwen 3.5、字節豆包 2.0 等新模型即將登場,騰訊元寶、Seedance 2.0 等則強化行銷生態。
灼識諮詢指出,智能體透過整合領域知識與工作流編排,成為連結模型與場景的關鍵樞紐。當前國產模型在晶片、框架、應用層仍存在碎片化問題,需建構統一技術標準。
隨著 GLM-5、M2.5 等模式展現生產力潛力,中國 AI 產業正經歷從「技術可用」到「商業可行」的關鍵一躍。這場春節檔技術爆發僅是序幕,如何在成本可控前提下突破可靠性瓶頸,將決定誰能在萬億級智能體市場中勝出。
