中國杭州 GPU 新創公司曦望周二 (27 日) 發表新一代推理 GPU 晶片「啟望 S3」,同步推出面向大模型推理的「寰望 SC3-256」超節點方案,並啟動「百萬 Token 一分錢」推理成本計畫。這是曦望近一年完成約 30 億元戰略融資後的首次集中亮相。
作為中國首家 All in 推理 GPU 晶片的公司,曦望董事長徐冰周二在記者會上說,曦望的定位是「一家更懂 AI 的 GPU 晶片公司」,成立以來持續將大模型推理做到極致,盼讓 AI 推理真正變得便宜、穩定且隨處可用。為此,公司提出「百萬 Token 一分錢」的長期目標,盼透過專用推理晶片與系統架構,在現有基礎上將百萬 Token 推理成本再降低一個數量級,進而重塑中國 AI 產業的算力成本結構。
啟望 S3 被定位為「中國首款 LPDDR6 顯示記憶體 GPGPU 晶片」,專為大模型推理場景深度定制。徐冰強調,啟望 S3 的設計完全圍繞真實業務場景中的單位 Token 成本、能耗及 SLA 穩定性展開,而非傳統訓推一體 GPU 那樣追求峰值 TFLOPS 等紙面指標。
在典型推理場景下,啟望 S3 的整體性價比較上一代提升超過 10 倍,單晶片性能提升約 5 倍,單位 Token 成本下降約 90%。該晶片預計今年上市,期盼在生命周期內實現百億級收入。
技術上,啟望 S3 有三大核心亮點:一是採用極致 PPA 設計,剔除為訓練準備的冗餘組件,引入推理優化架構及先進第三方高速接口 IP;二是採用合規先進的國際製程;三是作為中國首款 LPDDR6 顯示記憶體 GPGPU 晶片,其顯示記憶體帶寬較 LPDDR5 提升一倍以上,容量較上一代提升 4 倍,被曦望內部論證為當前推理場景的「最優解方」。同時,晶片精準把控大模型黃金算力訪存比,支持 FP16 至 FP4 多精度切換,可靈活適配混合專家模型 (MoE) 及長上下文模型需求。
為匹配超大規模模型推理需求,曦望同步發布「寰望 SC3-256」超節點方案。該方案聚焦千億級以上參數的多模態 MoE 推理,支持單域 256 卡一級互聯,並針對 PD 分離、大 EP 部署進行優化,可顯著提升系統利用率與穩定性,應對長上下文、多併發等複雜場景。
寰望 SC3 採用全液冷設計,PUE 表現優異,支持模組化快速交付。在大 EP 部署下,系統整體吞吐率可提升 20~25 倍,同等推理能力量級下,整體系統交付成本有望從行業常見的億元級降至千萬元級。透過 RDMA 連接,該方案可進一步擴展為千卡級集群,滿足更大規模的部署需求。
軟體層面,寰望 SC3 的自研體系涵蓋驅動、算子庫等全鏈路,對 CUDA 的兼容性約達 95%,大幅降低用戶遷移門檻。目前,該方案已適配 DeepSeek、通義千問等百餘種大模型,並兼容 ModelScope 平台 90% 以上的主流模型形態,為大規模商業部署奠定基礎。
生態布局上,曦望啟動「推理雲計畫」,與商湯科技、第四範式等合作夥伴共建「百萬 Token 一分錢」合作,並聯動杭鋼數字等平台落地浙江、輻射全中國,同時與三一、協鑫等十餘家夥伴簽約,將推理能力嵌入製造、能源等實體產業場景。
為支撐該計畫,曦望打造的新一代 AI 原生智算平台具備四大優勢:一是軟硬體深度協同,透過自研內核與通信庫及量化壓縮技術,在精度損失極小的情況下實現 250% 以上的性能提升;二是資源彈性調度,透過 GPU 池化等技術按需供給算力;三是開箱即用,集成模型市場與多種開發工具;四是穩定可靠,具備高可用及智能運維能力。
基於新打造的新一代 AI 原生智算平台,曦望升級其商業模式為「推理即服務」,構建「晶片 + 雲基建」雙輪驅動,透過 GPU 池化整合分散算力,以 MaaS 為入口,為客戶提供零門檻的一體化服務。
根據第三方測算,目前曦望每百萬 Token 價格約為 0.57 元 (人民幣,下同),遠低於行業 7 到 14 元的水平。未來,曦望將以「token as a service」為核心,提供多元服務,輸出高性價比綠色算力。
在產品路線圖上,曦望遵循「量產一代、發布一代、預研一代」的節奏,確定 2026 年推出啟望 S3,2027 年發布 S4 高性能芯片,2028 年推出 S5 安全可控芯片,力爭每年一迭代,持續鞏固在推理領域的優勢。
圍繞啟望 S3,曦望已構建覆蓋計算卡、伺服器、AI 集群、終端設備的全鏈路產品矩陣,形成完整生態,強化「更懂 AI 的推理 GPU 廠商」定位。
曦望成立於 2020 年 5 月,前身為商湯科技大晶片部門,是中國首家 All in 推理的 GPU 晶片公司。公司核心團隊規模超過 300 人,多來自輝達、超微、百度、華為海思、商湯等重量級企業,核心成員擁有平均 15 年以上行業經驗。
公開資料顯示,過去 8 年,曦望累計研發投入約 20 億元,堅持 GPU 每年一迭代,已成功量產啟望 S1、S2 兩代芯片,去年交付推理 GPU 晶片突破 1 萬片,獲得多個大廠訂單,收入大幅增長,同年還完成約 30 億元戰略融資,股東涵蓋商湯、三一、杭州數據集團等龍頭企業及多家國資、頂尖創投機構。
業內人士分析,隨著大模型應用規模化落地,推理環節的效率、成本與穩定性已成為決定 AI 商業化成敗的關鍵。
根據 IDC 數據,2025 年中國生成式 AI IaaS 市場中,推理佔比已達 50.4%,預計到 2029 年將提升至 76.8%。在此背景下,曦望以「晶片 + 系統 + 生態」的整體打法,瞄準推理這一快速增長的市場,有望在中國 AI 算力體系中扮演更重要的角色。
