AI視覺認知革命!DeepSeek發布OCR 2用16倍壓縮比破解複雜版面 重覆率狂降33%

AI視覺認知革命!DeepSeek發布OCR 2用16倍壓縮比破解複雜版面 重覆率狂降33%(圖:Shutterstock)
AI視覺認知革命!DeepSeek發布OCR 2用16倍壓縮比破解複雜版面 重覆率狂降33%(圖:Shutterstock)

DeepSeek 周二 (27 日) 發布新一代光學字元識別模型 DeepSeek-OCR 2​並開源,其採用創新的 DeepEncoder V2 方法,讓 AI 能像人類一樣,依據圖像語義動態重排畫面片段,而非傳統的機械式掃描。

DeepEncoder V2 引入「因果流查詢」,使模型在送入大語言模型解碼前,能先對視覺資訊進行「智能重排」,形成「先排序、再理解」的兩級推理結構。

在 OmniDocBench v1.5 基準測試中,模型綜合成績達 91.09%,較前代提升 3.73%。

同時,DeepEncoder V2 將視覺 Token 數量控制在 256 至 1120​ 之間,在保證高精度的同時降低了算力成本。

DeepSeek-OCR 2 的架構創新具有深遠意義。它驗證了使用語言模型架構作為視覺編碼器的可行性,能直接繼承混合專家 (MoE) 等先進技術,這為未來打造統一的「全模態編碼器」開闢了一條有希望的路徑,有望用單一模型處理圖像、音訊和文本。

同一天,另一中國 AI 新創公司月之暗面亦發布了新一代開源模型 Kimi K2.5,它基於原生多模態架構,在多項智能體評測中取得全球開源模型最佳成績,並展示強大的 Agent 集群能力。

阿里巴巴周一 (26 日) 晚間也發布上兆參數的旗艦推理模型 Qwen3-Max-Thinking,在多項關鍵基準上刷新紀錄,進一步拓展了 AI 推理的性能邊界。


相關貼文

prev icon
next icon