《華爾街日報》(WSJ) 周二 (24 日) 報導,儘管中國在購買先進晶片方面受限,但有跡象表明,中國新創公司追趕美國領先的人工智慧 (AI) 模型的速度比業內許多人預期的還要快。
實力仍有落差 但成長速度快
由中國最成功的避險基金經理人之一投資的新創公司 DeepSeek11 月發布其最新大型語言模型的預覽版。該公司表示,程式的能力優於 OpenAI 的推理模型 o1,後者於 9 月以預覽形式推出。
與此同時,最近幾周其他中國公司也發表類似的聲明。由中國網路巨擘阿里巴巴 (09988-HK)(BABA-US) 和騰訊 (00700-HK) 投資的新創公司月之暗面 (Moonshot AI) 表示,其開發一個專門研究數學的模型,其能力接近 OpenAI 的 o1。另一方面,阿里巴巴表示自家的一個實驗研究模型在數學上優於 OpenAI 的 o1 預覽版本。
不過這些公司尚未發表描述其模型的文章,而且評估這些說法很困難,因為對 AI 模型的能力沒有一個公認的測試。不過,一些美國專家表示,他們對此印象深刻。
OpenAI 前研究員、現任 AI 企業家卡爾 (Andrew Carr) 表示,中國正「緊追在後」。他說,DeepSeek 的研究人員試圖複製 OpenAI 的推理模型,僅在幾個月內就找到了答案,相當令人驚訝。
DeepSeek 稱其模型在美國國際數學邀請賽 (AIME) 上擊敗了 OpenAI。但《華爾街日報》利用今年 AIME 的 15 個問題進行的一項實驗發現,OpenAI 的 o1 預覽模型比 DeepSeek、Moonshot 和阿里巴巴的實驗模型更快找到了答案。
在一個假設的雙人遊戲涉及策略的字謎中,OpenAI 程式在 10 秒內給出了答案,而 DeepSeek 花了兩分鐘多,不過能找到正確答案仍是一項壯舉,因為文字問題經常難倒 AI 程式。
中國開發商另闢蹊徑發展 AI 技術
儘管美國自 2022 年以來不斷對中國實施最先進 AI 晶片限制,但中國開發人員找到解決方面。月之暗面創始人楊植麟 (Yang Zhilin) 表示,該公司專注於強化學習,模仿人類的試誤過程,這種方法可能在提高效能方面較少使用運算能力。
報導指出,自去年年底以來,AI 開發人員越來越多使用一種名為「混合專家模型」(Mixture of Experts, MoE) 的技術,這種技術能降低對晶片的需求。
騰訊曾表示,11 月發表的 MoE 模型的效能堪比臉書母公司 Meta Platforms(META-US) 今年 7 月推出的 Llama 3.1 模型。不過審閱兩家公司發表的論文的研究人員表示,騰訊模型的運算能力可能只有 Meta 的十分之一左右。
AI 新創公司 Anthropic 的聯合創始人克拉克(Jack Clark)在他的部落格中寫道:「中國繞過出口管制的一種方法是,利用它可以訪問的硬體建立非常好的軟體和硬體培訓。」他稱:「中國製造將成為 AI 模型的一部分,就像電動車、無人機和其他技術一樣。」
許多中國 AI 開發人員已經找到獲取受限制的輝達 (NVDA-US) 晶片的方法,包括透過與中間商和海外資料中心的交易。儘管如此,據中國高層稱,缺乏尖端晶片對中國新創企業來說是痛苦的,而且差距還會擴大。
募資恐不理想!智譜 AI 延後明年下半年上市計畫
報導還提到,中國 AI 新創公司目前的估值僅為 OpenAi 等美國公司的一小部分,後者最近的估值為 1,570 億美元。
根據知情人士透露,總部位於北京的智譜 AI 推遲最快在 2025 年下半年上市的計畫,此前投資銀行家告訴該公司不太可能獲得預期的估值。
智浦 AI 在本月的最新一輪融資中估值約為 30 億美元,其在 11 月底展示了自家 AI 代理,並在 7 月發布一個類似 OpenAI Sora 的影片生成模型。