早盤勁揚近3%!阿里推最強推理模型Qwen3-Max-Thinking 性能媲美GPT-5.2及Gemini 3 Pro

阿里推最強推理模型Qwen3-Max-Thinking 性能媲美GPT-5.2及Gemini 3 Pro(圖:Shutterstock)
阿里推最強推理模型Qwen3-Max-Thinking 性能媲美GPT-5.2及Gemini 3 Pro(圖:Shutterstock)

阿里巴巴 (09988-HK)周一 (26 日) 晚間正式發布備受關注的旗艦推理模型「Qwen3-Max-Thinking」,該模型在多項權威評測中創下全球新紀錄,表現媲美 GPT-5.2 與 Gemini 3 Pro,被視為目前中國實力最強、最貼近國際頂尖水準的大語言模型。

阿里通義團隊為 Qwen3-Max-Thinking 導入「自適應工具呼叫」與「測試時擴展技術」兩大創新,顯著提升模型推理智慧與效率。

Qwen3-Max-Thinking 總參數突破一兆,預訓練資料量達 36 兆 Tokens,為阿里歷來規模最大的千問推理模型。

經過大規模強化學習與推理技術優化,Qwen3-Max-Thinking 整體表現實現飛躍。

先前所推出的 Qwen3-Max-Thinking 預覽版已在數學推理領域獲得 AIME 25 與 HMMT 25 雙滿分,為中國大語言模型首例,周一推出的正式版則進一步深化訓練,全面提升各項能力。

在科學知識 (GPQA Diamond0、數學推理(IMO-AnswerBench)、程式設計(LiveCodeBench) 等重要基準中,Qwen3-Max-Thinking 超越 GPT-5.2、Claude Opus 4.5 與 Gemini 3 Pro,刷新全球最佳成績,其獨特的測試時擴展機制,能針對既有推理結果進行「經驗萃取」,透過多輪自我迭代提升效率與精準度,克服傳統冗餘推論問題。

此外,模型原生代理能力亦大幅增強,Qwen3-Max-Thinking 可自主運用搜尋、記憶與程式解釋器等工具,並結合規則與模型獎勵進行聯合訓練,讓回答更專業、幻覺明顯降低。

即日起,一般使用者可於千問官網或 PC 端試用,開發者可至 QwenChat 免費體驗,企業用戶則可透過阿里雲百煉取得 API 服務,千問 APP 也即將支援新模型,全面開放免費使用。

根據 Hugging Face 最新數據,阿里千問衍生模型數突破 20 萬個,成為全球首個達成此目標的開源大模型,千問系列模型下載量突破 10 億次,平均每天被下載 110 萬次,穩居開源大模型全球第一。

阿里巴巴今 (27) 日在港股早盤應聲上漲近 3% 至每股 169.2 港元。


相關貼文

prev icon
next icon