AI新戰場開啟 Google與OpenAI決戰多模態大語言模型

據外媒報導，隨著 AI 競爭加劇，Google(GOOGL-US) 和 OpenAI 的較勁進入白熱化，雙方均力圖搶先推出下一代「多模態 (multimodal)」大型語言模型 (LLM)。

報導稱，這些多模態模型可以處理圖像和文本，例如，使用者只需要提供模型一張網頁草圖，模型就可以為網站生成程式碼，或向使用者提供可視圖表的文本分析。

先前有報導稱，Google 正在接近這個目標，並已經與一小部分外部公司分享了名為 Gemini 的多模態大型語言模型。

不過，OpenAI 似乎想要搶在 Google 之前發布。知情人士透露，這家人工智慧新創公司正將其最先進的大型語言模型 GPT-4 與多模態功能結合，其新模型的代號為 Gobi。

與 GPT-4 不同，Gobi 從一開始就被設計成多模式，不過似乎 OpenAI 公司尚未開始訓練這個模型。

此外，隨著關於 GPT-5 的傳言逐漸傳播開來，但目前並沒有相關消息。

報導形容，這場競賽類似於人工智慧版的蘋果與安卓之爭。而 Gemini 的到來，將可看出 Google 和 OpenAI 之間的差距到底有多大。

外媒 The Information 上周獨家報導稱，Gemini 可能很快準備好進行測試發布，並將整合到像 Google Cloud Vertex AI 等服務中。

一位使用過 Gemini 早期版本的人透露，與現有的模型相比，Gemini 似乎產生的錯誤答案更少。

這場人工智慧大戰，目前由 OpenAI 領先並成功帶領風潮，但一直有分析師看好 Google 的潛力，主因是 Google 擁有更豐富的文字、圖像、影片和音訊相關的專有數據，這一優勢也會有利於他們向多模態模型的推動。

延伸閱讀