中國人工智慧(AI)圖像生成賽道再掀波瀾。阿里巴巴 (09988-HK) 與字節跳動兩大科技巨頭近日同步發布各自最新一代 AI 圖像生成模型,分別為阿里巴巴的 Qwen-Image-2.0 與字節跳動的 Seedream 5.0。
兩款模型均已正式上線。阿里巴巴透過阿里雲「百鍊」平台開放 API 邀請測試,一般用戶也可透過 Qwen Chat 免費體驗 Qwen-Image-2.0。
字節跳動則將 Seedream 5.0 直接整合至旗下剪映、CapCut、小雲雀等多款內容創作工具,並提供限時免費使用,未來規畫進一步拓展至美國市場。
Qwen-Image-2.0 的最大亮點,在於首度將圖像生成與圖像編輯整合至單一模型架構中,不僅提升整體效能,也大幅增加應用彈性。
該模型支援最長 1,000 token 的複雜文字指令輸入,並可生成最高 2K 解析度影像,適用於專業簡報、海報設計、多格漫畫等高複雜度場景。
在中文文字渲染方面,Qwen-Image-2.0 表現尤為突出,能準確呈現多字體與長篇中文內容,甚至可生成《蘭亭集序》全文配圖。
根據 AI Arena 評測,該模型在「文字生成圖像」任務中以 1,029 分名列全球第三,圖像編輯能力得分 1,034,排名第二,接近國際頂尖水準。
相較之下,字節跳動的 Seedream 5.0 則更著重於「智慧層級」的提升。該模型加強了對提示詞的理解能力,支援檢索生圖、多步邏輯推理與即時聯網知識整合,特別適合知識驅動型任務,例如生成具備完整流程與說明的步驟示意圖。
在影像品質方面,Seedream 5.0 支援 2K 及 4K 解析度輸出,細節紋理與光影表現更為細膩,並新增更精準的局部編輯功能。
分析指出,Seedream 5.0 模型主要對標 Google(GOOGL-US) 的 Nano Banana Pro,強調低成本優勢,目前提供每位用戶 20 次免費使用額度,後續將逐步開放更多地區。
不過,有網友認為,Seedream 5.0 Preview 的智慧等級、中文能力有提升,但都比不上 Nano Banana Pro。還有網友調侃,新模型進步程度僅 0.09,僅相當於加了網路搜尋的 Seedream 4.5。
從技術規格來看,Qwen-Image-2.0 的長文本理解能力明顯領先同業,特別適合需要精細文字排版與多元素組合的專業應用;Seedream 5.0 則透過多步推理與知識整合,提高模型面對複雜任務的適應性,並以 4K 輸出滿足高階視覺需求。
在實際使用體驗上,用戶回饋 Qwen-Image-2.0 圖像細膩、中文字體準確,編輯彈性高,可實現九宮格自拍、多風格轉換等多樣化創作。
Seedream 5.0 則憑藉字節跳動既有內容生態,讓創作者能在剪映、CapCut 等工具中無縫調用模型,提升創作效率。
中國 AI 圖像生成進入多元競爭階段
分析指出,整體而言,這次兩款新模型的亮相,凸顯中國 AI 圖像生成市場正朝向多元技術路線並行發展。
阿里巴巴選擇從底層架構整合與效能優化切入,著力強化中文文字呈現與跨場景應用,進一步拉近 AI 圖像工具與實務使用之間的距離;字節跳動則將重心放在模型「理解力」與知識驅動能力上,透過推理機制與高解析輸出,回應更高難度的專業創作與內容需求。
隨著生成式影像技術持續成熟,模型能否有效整合多模態資訊、精準理解長篇指令,以及在高解析度下維持細節品質,或成為競爭勝出的關鍵指標。
從策略面來看,阿里巴巴與字節跳動分別代表兩種不同的技術布局與市場思維,預料將在專業設計、內容製作、教育訓練等應用領域正面交鋒。
同時,隨著 API 與應用端逐步對外開放,AI 圖像生成生態可望吸引更多開發者與使用者加入,加速技術更新與應用創新。
綜合評估,Qwen-Image-2.0 憑藉單一模型架構與優異的中文文字生成表現,在專業影像生成與編輯市場中佔有有利位置;Seedream 5.0 則依靠推理能力與高解析度支援,在知識密集型與高品質視覺應用場景中更具競爭力。
