Google發布開源Gemma 4 12B！16GB記憶體就能跑多模態AI

鉅亨網新聞中心2026年6月4號11點20分

Google DeepMind 發布了 Gemma 4 12B。一句話概括這個模型的定位：把原本需要高階伺服器才能運行的多模態智能，裝進你的筆記型電腦裡。

它填補的是 Gemma 家族中的一個關鍵空缺：比邊緣端的 E4B 更強，比 26B 混合專家模型（MoE）更輕。而且在整個 Gemma 4 系列中，它是第一個支援原生音訊輸入的中型規模模型。

先看跑分表現。Gemma 4 12B 在標準評測基準上的成績接近 26B MoE 模型，但總記憶體占用還不到後者的一半。

硬體門檻方面，只需要 16GB 顯示記憶體或統一記憶體，消費級筆記型電腦就能運行，也就是入門級的 MacBook Air（M5）就能跑。

能力方面，它支援強大的多步推理和 Agent(代理) 工作流程。多模態理解加上 Agent 能力，直接在本地運行，不需連網，也不依賴雲端。

本地體驗入口包括：

傳統多模態模型處理圖片或音訊時，通常會先透過專門的編碼器將影像或音訊「翻譯」成模型能理解的表示形式，再傳送給語言模型主體。編碼器越多，延遲越高，記憶體占用也越大。

Google 這次直接把編碼器拿掉了。在視覺處理方面，他們使用一個極輕量的嵌入模組取代原有視覺編碼器。這個模組僅包含一次矩陣乘法、位置嵌入以及正規化操作。視覺資訊因此能直接進入語言模型主幹，由大型語言模型自行完成視覺理解。

在音訊處理方面則更加徹底。音訊編碼器被完全移除，原始音訊訊號直接投影到與文字 Token 相同的維度空間中。

這種統一、無編碼器的架構帶來最直接的好處是：

Gemma 4 12B 內建多 Token 預測（MTP）草稿器，專門用於降低推理延遲。這項技術我先前文章曾介紹過，目前 Google 已將其應用到自家全系列模型中。

在實際使用上，這代表模型回應速度更快。

Apache 2.0 完全開放

授權方面，Gemma 4 12B 採用 Apache 2.0 授權發布，開發者可自由使用。

預訓練權重與指令微調權重都可直接從 Hugging Face 與 Kaggle 下載。

支援的推理框架包括：

微調方面支援 Unsloth。在正式部署方面，則可透過 Google Cloud 上線，支援：

Google 此次也同步發布官方 Gemma Skills Repository（Gemma 技能庫），專門協助開發者利用 Gemma 模型建構 Agent 工作流程。其中收錄的技能皆是專為 Gemma 設計。

此外，開發者文件與快速上手 Notebook 也同步上線。