Google發布開源Gemma 4 12B!16GB記憶體就能跑多模態AI

Google發布開源Gemma 4 12B!16GB記憶體就能跑多模態AI(圖:Shutterstock)
Google發布開源Gemma 4 12B!16GB記憶體就能跑多模態AI(圖:Shutterstock)

Google DeepMind 發布了 Gemma 4 12B。一句話概括這個模型的定位:把原本需要高階伺服器才能運行的多模態智能,裝進你的筆記型電腦裡。

它填補的是 Gemma 家族中的一個關鍵空缺:比邊緣端的 E4B 更強,比 26B 混合專家模型(MoE)更輕。而且在整個 Gemma 4 系列中,它是第一個支援原生音訊輸入的中型規模模型。

先看跑分表現。Gemma 4 12B 在標準評測基準上的成績接近 26B MoE 模型,但總記憶體占用還不到後者的一半。

硬體門檻方面,只需要 16GB 顯示記憶體或統一記憶體,消費級筆記型電腦就能運行,也就是入門級的 MacBook Air(M5)就能跑。

能力方面,它支援強大的多步推理和 Agent(代理) 工作流程。多模態理解加上 Agent 能力,直接在本地運行,不需連網,也不依賴雲端。

本地體驗入口包括:

  • LM Studio
  • Ollama
  • Google AI Edge Gallery App
  • Google AI Edge Eloquent 應用程式(可直接體驗完全離線的語音轉錄、格式化及翻譯功能)
  • LiteRT-LM CLI

傳統多模態模型處理圖片或音訊時,通常會先透過專門的編碼器將影像或音訊「翻譯」成模型能理解的表示形式,再傳送給語言模型主體。編碼器越多,延遲越高,記憶體占用也越大。

Google 這次直接把編碼器拿掉了。在視覺處理方面,他們使用一個極輕量的嵌入模組取代原有視覺編碼器。這個模組僅包含一次矩陣乘法、位置嵌入以及正規化操作。視覺資訊因此能直接進入語言模型主幹,由大型語言模型自行完成視覺理解。

在音訊處理方面則更加徹底。音訊編碼器被完全移除,原始音訊訊號直接投影到與文字 Token 相同的維度空間中。

這種統一、無編碼器的架構帶來最直接的好處是:

  • 延遲更低
  • 記憶體占用更少

Gemma 4 12B 內建多 Token 預測(MTP)草稿器,專門用於降低推理延遲。這項技術我先前文章曾介紹過,目前 Google 已將其應用到自家全系列模型中。

在實際使用上,這代表模型回應速度更快。

Apache 2.0 完全開放

授權方面,Gemma 4 12B 採用 Apache 2.0 授權發布,開發者可自由使用。

預訓練權重與指令微調權重都可直接從 Hugging Face 與 Kaggle 下載。

支援的推理框架包括:

  • Hugging Face Transformers
  • llama.cpp
  • MLX
  • SGLang
  • vLLM

微調方面支援 Unsloth。在正式部署方面,則可透過 Google Cloud 上線,支援:

  • Gemini 企業級 Agent 平台 Model Garden
  • Cloud Run
  • GKE

Google 此次也同步發布官方 Gemma Skills Repository(Gemma 技能庫),專門協助開發者利用 Gemma 模型建構 Agent 工作流程。其中收錄的技能皆是專為 Gemma 設計。

此外,開發者文件與快速上手 Notebook 也同步上線。


相關貼文

prev icon
next icon