中國AI史上第一次!阿里巴巴Qwen3.7-Max殺入全球程式設計榜前四 前方僅剩Claude

全球 AI 程式設計模型排行榜迎來歷史性突破,阿里巴巴通義千問最新發布的旗艦模型 Qwen3.7‑Max(亦被社群稱為 Qwen3‑Code) 在權威評測平台 Code Arena 中以 1541 分奪下全球第 4 名、非 Claude 模型第 1 名。

中國 AI 資訊社交平台《新智元》報導,這項最新榜單顯示,Qwen3.7‑Max 僅次於 Anthropic 的 Claude Opus 4.7 與 Claude Opus 4.6 Thinking(第 3 名),超越 ChatGPT‑5.5、Gemini 3.5 Flash 等一眾歐美頂尖模型,是中國自研大模型首次在程式設計這一「皇冠賽道」殺入全球第一梯隊。

根據 Code Arena 排行榜 (今年 5 月 24 日止),Qwen3.7‑Max 累積逾 1522 票、置信區間極窄,穩居第 4 位且為前 5 名中唯一非 Anthropic 模型。

評測涵蓋前端開發、多步推理與 Agentic Coding(代理式編碼) 工作流,被業界視為檢驗 AI「真實寫程式能力」的最嚴苛戰場。

過去一年,該榜單幾乎由 Claude 系列壟斷,Qwen3.7‑Max 入圍被海外開發者稱為「中國模型第一次在程式設計決賽中拿到決賽門票」。

實測環節更讓開發者驚艷,海外技術部落客讓 Qwen3.7‑Max 與 Claude Opus 4.7、GPT‑5.5 同台撰寫「可自我訓練俄羅斯方塊 AI」,結果 Qwen3.7‑Max 僅耗費約 1.32 美元 Token 成本便超越對手表現,號稱效能提升 56%。

另一位開發者則實測「用真實天文數據構建可觀測宇宙 3D 模型」,以及生成含賽道、AI 對手、計時面板、音效與開始選單的完整 Low‑Poly 3D 賽車遊戲,Qwen3.7‑Max 首輪即產出基本可玩版本,其餘模型大多需要多輪除錯。

在體素 (Voxel) 塔樓生成測試中,Qwen3.7‑Max 以 66455 體素、2 分 2 秒拔得頭籌。

開發者 Paul Couvert 指出,將 Qwen3.7‑Max 接入 Hermes Agent 或 OpenCode 後,「基本可替代 GPT‑5.5 與 Opus 4.7」,且其輸出 Token 成本較 Opus 4.7 便宜約 3.3 倍、較 GPT‑5.5 便宜約 4 倍。

阿里巴巴表示,Qwen3.7‑Max 定位為智能體基座模型,專為長時程自主任務設計。根據內測數據,該模型在一次自主程式設計任務中連續運行 35 小時、執行逾 1158 次工具呼叫 (MCP),全程無上下文退化、無指令漂移、無死迴圈,最終代碼相較 Triton 參考實現達到最高 10 倍幾何平均加速。

目前,Qwen3.7‑Max 已上線阿里雲百鍊 (Alibaba Model Studio) 及通義千問官網供體驗與 API 呼叫。業內人士分析,隨著 AI 競逐從對話聊天轉向「能幹活的程式設計 Agent」,Qwen3.7‑Max 榜單突破標誌著中國大模型產業正從追趕走向局部引領,全球程式設計 AI 競賽,已不再是矽谷的獨角戲。