DeepSeek估值飆升至450億美元 V4架構革新揭示全球AI競爭新格局

DeepSeek估值飆升至450億美元 V4架構革新揭示全球AI競爭新格局(圖:shutterstock)
DeepSeek估值飆升至450億美元 V4架構革新揭示全球AI競爭新格局(圖:shutterstock)

中國 AI 獨角獸 DeepSeek 的估值,在過去短短數周內從 100 億美元暴漲至約 450 億美元,引發市場高度關注。據報導,此輪融資由中國國家集成電路產業投資基金 (大基金) 領投,並吸引了騰訊、阿里等科技巨頭參與。

這不僅反映了資本市場對 DeepSeek 效率至上路線的認可,更象徵著 AI 基礎設施典範的轉移。

Engram 模組與 FP4 量化

DeepSeek 創始人梁文鋒近期發布的論文,進一步揭示 DeepSeek V4 的架構核心。該模型引入了名為 Engram 的全新模組,旨在解決 Transformer 架構在記憶機制上的致命缺陷。

Engram 透過一種現代化的雜湊 N-gram 嵌入技術,提供近似 O(1) 的確定性知識尋找能力,將靜態模式儲存與動態計算分離。實驗證明,Engram 與 MoE(混合專家模型) 之間存在「U 形 scaling law」,適當分配資源給 Engram 能讓模型在不增加計算成本 (FLOPs) 的情況下,顯著提升推理、程式碼與數學能力。

此外,DeepSeek V4 在工程化方面展現了極致的效率優化。其完整版技術報告指出,模型採用了 FP4(MXFP4) 量化感知訓練,將 MoE 權重與長文本注意力的 QK 計算壓制為 4 位元精度,使推理速度提升 2 倍且大幅節省顯存。

針對兆級參數模型易崩潰的難題,研發團隊提出了「預判路由 (Anticipatory Routing)」與「SwiGLU Clamping」兩套穩定方案,成功穩住訓練過程。

NIST 評測:領先的效率與 8 個月的代差

根據美國國家標準暨技術研究院 (NIST) 旗下 CAISI 在 2026 年 5 月發布的評測報告,DeepSeek V4 Pro 是目前評測過最強大的中國 AI 模型。

儘管 DeepSeek 自評能力與 GPT-5.4 相當,但 NIST 的獨立評測 (包含非公開基準測試) 顯示,其綜合能力仍落後美國領先模型 (如 GPT-5) 約 8 個月。

然而,DeepSeek 在成本效率上展現了壓倒性優勢。在與 GPT-5.4 mini 的對比中,DeepSeek V4 在多項基準測試中成本更低,部分項目甚至比美國參考模型便宜 53%。在編碼能力上,其 Codeforces 評分達 3206 分,超越了 GPT-5.4 的 3168 分。

戰略意義:產業鏈脫鉤與國產替代

DeepSeek 的成功與中國戰略資本的介入,預示著一條平行於美國的 AI 基礎設施生態鏈正在成形。DeepSeek 已展現出對華為昇騰 950 處理器 的深度適配,並計畫在華為產能擴張後進一步降低價格。這種與中芯國際、華為等國內供應鏈的結合,反映了在外部制裁壓力下,中國爭取技術主權與戰略脫鉤的決心。


相關貼文

prev icon
next icon