Google發布開源Gemma 4 12B!16GB記憶體就能跑多模態AI
Google DeepMind 發布了 Gemma 4 12B。一句話概括這個模型的定位:把原本需要高階伺服器才能運行的多模態智能,裝進你的筆記型電腦裡。
它填補的是 Gemma 家族中的一個關鍵空缺:比邊緣端的 E4B 更強,比 26B 混合專家模型(MoE)更輕。而且在整個 Gemma 4 系列中,它是第一個支援原生音訊輸入的中型規模模型。
先看跑分表現。Gemma 4 12B 在標準評測基準上的成績接近 26B MoE 模型,但總記憶體占用還不到後者的一半。
硬體門檻方面,只需要 16GB 顯示記憶體或統一記憶體,消費級筆記型電腦就能運行,也就是入門級的 MacBook Air(M5)就能跑。
能力方面,它支援強大的多步推理和 Agent(代理) 工作流程。多模態理解加上 Agent 能力,直接在本地運行,不需連網,也不依賴雲端。
本地體驗入口包括:
- LM Studio
- Ollama
- Google AI Edge Gallery App
- Google AI Edge Eloquent 應用程式(可直接體驗完全離線的語音轉錄、格式化及翻譯功能)
- LiteRT-LM CLI
傳統多模態模型處理圖片或音訊時,通常會先透過專門的編碼器將影像或音訊「翻譯」成模型能理解的表示形式,再傳送給語言模型主體。編碼器越多,延遲越高,記憶體占用也越大。
Google 這次直接把編碼器拿掉了。在視覺處理方面,他們使用一個極輕量的嵌入模組取代原有視覺編碼器。這個模組僅包含一次矩陣乘法、位置嵌入以及正規化操作。視覺資訊因此能直接進入語言模型主幹,由大型語言模型自行完成視覺理解。
在音訊處理方面則更加徹底。音訊編碼器被完全移除,原始音訊訊號直接投影到與文字 Token 相同的維度空間中。
這種統一、無編碼器的架構帶來最直接的好處是:
- 延遲更低
- 記憶體占用更少
Gemma 4 12B 內建多 Token 預測(MTP)草稿器,專門用於降低推理延遲。這項技術我先前文章曾介紹過,目前 Google 已將其應用到自家全系列模型中。
在實際使用上,這代表模型回應速度更快。
Apache 2.0 完全開放
授權方面,Gemma 4 12B 採用 Apache 2.0 授權發布,開發者可自由使用。
預訓練權重與指令微調權重都可直接從 Hugging Face 與 Kaggle 下載。
支援的推理框架包括:
- Hugging Face Transformers
- llama.cpp
- MLX
- SGLang
- vLLM
微調方面支援 Unsloth。在正式部署方面,則可透過 Google Cloud 上線,支援:
- Gemini 企業級 Agent 平台 Model Garden
- Cloud Run
- GKE
Google 此次也同步發布官方 Gemma Skills Repository(Gemma 技能庫),專門協助開發者利用 Gemma 模型建構 Agent 工作流程。其中收錄的技能皆是專為 Gemma 設計。
此外,開發者文件與快速上手 Notebook 也同步上線。