開源 AI 模型領域再次迎來重磅選手。小米 (01810-HK) 近日正式發布並開源全新大型語言模型 MiMo-V2-Flash。這款模型總參數達 3,090 億,活躍參數為 150 億,採用專家混合架構 (MoE)。
MiMo-V2-Flash 性能不僅能與 DeepSeek-V3.2、Kimi-K2 等頂尖開源模型抗衡,更在架構設計上激進創新,將推理速度拉升至每秒 150 tokens,且成本極低,每百萬 token 輸入僅需 0.1 美元。
目前,MiMo-V2-Flash 已採用 MIT 開源協議,基礎權重也已在 Hugging Face 上架。
在各項基準測試中,MiMo-V2-Flash 展現了超高實力。在 AIME 2025 數學競賽和 GPQA-Diamond 科學測試中,該模型位居開源界前兩名。
最令人驚艷的則是其程式編寫能力。在模擬修復現實軟體錯誤的 SWE-bench Verified 測試中,MiMo-V2-Flash 以 73.4% 的得分超越所有開源模型,表現直逼尚未發布的 GPT-5-High。
在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。
而在代理任務上,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆升到 58.3。
相關數據顯示,MiMo-V2-Flash 的能力不僅止於程式碼生成,更能掌握複雜任務背後的邏輯結構,並支援多輪智慧代理之間的協同運作。
同樣值得注意的是,其文字表現水準已逼近主流頂級閉源模型,代表 MiMo-V2-Flash 不再只是功能型工具,而具備勝任日常使用的可靠輔助角色。
兩大黑科技:混合滑動窗口與多 Token 預測
在兼顧長文本處理能力的同時,MiMo-V2-Flash 也成功壓低運算與使用成本,而這一成果,正是建立在兩項關鍵技術突破之上:
第一,是激進的混合滑動窗口注意力機制。小米採用了 5:1 的比例,即 5 層滑動窗口搭配 1 層全局注意力。這種設計讓 KV 緩存存儲量減少了近 6 倍。
小米研究員羅福莉指出,實驗發現 128 個 token 是窗口大小的「最佳甜點值」,盲目擴大反而會損害性能。
其次則是,輕量級多 Token 預測 (MTP)。傳統模型一次只能生成一個 token,MiMo-V2-Flash 則能並行預測多個。
實測顯示,這讓推理速度提升了 2 到 2.6 倍,並有效解決了強化學習訓練中 GPU 空轉的浪費問題。
算力僅需 1/50,實現模型「自我進化」
在後訓練階段,小米引入了多教師在線策略蒸餾 (MOPD) 技術。
傳統的「監督微調+強化學習」訓練流程,長期存在兩大問題:一是訓練過程容易震盪不穩,二是對算力的需求極為驚人。
而 MOPD 採取了截然不同的做法,讓學生模型直接在自身策略分布下進行取樣,並由多個專家教師在每一個 token 層級即時給出細緻的回饋訊號。
換句話說,就是學生模型不再等整篇內容寫完才被評分,而是在「寫的每一個字」都能即時得到老師指導。這種即時校正機制,使學生模型能更快掌握教師模型的核心能力,同時大幅提升訓練穩定性。
在效率層面,MOPD 的表現更是顯眼。相較於傳統方法,它僅需約五十分之一的算力,就能讓學生模型逼近教師模型的性能上限。
這代表小米能以更低的資源成本,加快模型更新與更新速度。
此外,MOPD 架構具備高度彈性,可隨時引入新的教師模型;隨著學生模型能力成長,甚至能反過來擔任教師角色,形成「學中教、教中學」的自我進化循環。模型之間彼此傳承、持續強化,使整體能力層層堆疊。
依照羅福莉的說法,團隊借鑑了 Thinking Machine 提出的 On-Policy Distillation 思路,將多個強化學習模型進行整合,意外帶來極為顯著的效率突破,也為打造具備自我強化能力的閉環系統奠定基礎,讓模型得以不斷進化,最終成為更強大的教師。
在代理強化學習擴展方面,小米 MiMo-V2-Flash 團隊以真實 GitHub issue 建立逾 10 萬個可驗證任務,並透過 Kubernetes 叢集自動化執行,可同時啟動超過 1 萬個 Pod,環境部署成功率達 70%。
針對網頁開發場景,團隊導入多模態驗證機制,改以影片錄製方式檢查程式執行結果,有效降低視覺幻覺並確保功能正確性。
MiMo-V2-Flash 可無縫整合 Claude Code、Cursor、Cline 等主流開發工具,並支援 256K 超長上下文,足以應付數百輪代理互動與工具呼叫,方便直接融入既有工作流程。
小米同時將推理程式碼回饋至 SGLang,並公開完整技術報告,模型權重以 MIT 授權於 Hugging Face 開源,目前亦在 API 平台限時開放免費體驗。
小米的 AI 野心:打造全生態基石
MiMo-V2-Flash 的推出,象徵小米正式加速布局人工智慧核心技術。
羅福莉日前在社群平台表示,MiMo-V2-Flash 已完成上線,並被定位為公司 AGI 發展藍圖中的第二個關鍵節點,顯示後續仍有更大規模的技術規劃正在推進。
小米也在技術報告中坦言,MiMo-V2-Flash 與頂級閉源模型之間仍存在性能差距。
不過,公司已明確規劃,將透過擴充模型規模與訓練算力,逐步拉近差距,同時持續優化更穩定且高效率的智能體架構。
在 MOPD 框架下,教師模型與學生模型的持續更新與協同演進,為後續能力提升提供了彈性與成長空間。從更宏觀的角度來看,這反映出小米對 AI 生態的長期戰略布局。
隨著手機、IoT 與汽車等硬體版圖持續擴張,小米極需一個高效能的 AI 核心作為底層支撐,而 MiMo-V2-Flash 正是其關鍵基石。
回顧小米過去以具競爭力的價格重塑智慧型手機市場,如今 MiMo-V2-Flash 也試圖以低成本與 73.4% 的 SWE-Bench 成績,重新拉高開源大型語言模型的效能門檻。
