Meta首席科學家：AI很有發展但大模型語言缺乏關鍵能力

Meta 首席科學家 Yann LeCun（楊立昆）近日發表多篇演講，分享他對人工智慧未來的深刻見解。作為深度學習領域的先驅者和 2018 年圖靈獎得主，LeCun 的觀點引發了廣泛關注。

他近日的演講內容，主要圍繞 AI 的需求與現狀，現有 AI 的局限性，開源 AI 平台的必要性以及通往人類水準的 AI 道路等多個方面。在哥倫比亞大學的演講中，由於他的講說對象是研究生，因此特別針對合適的研究主題多所探討。

LeCun 曾在多次公開駁斥「AI 威脅論」，他認為當今的大型語言模型缺乏一些關鍵的能力，如持久記憶、推理、規劃和理解物理世界。在他看來，在他看來，AI 只是證明可以操縱語言，但並不聰明，而人的智力是非常複雜的，所以真正的通用式人工智慧（AGI）不會到來。

不過，這並不代表他完全懷疑人工智慧，他只是認為需要新的方法。

現有 AI 的局限性

LeCun 認為，人們確實需要人類等級的 AI，因為在未來，人們大多數人都會戴著智慧眼鏡或其他類型的設備，人們會與它們交談，這些系統將擁有助手，也許不僅僅是一個，可能是一整套助手。

庥更喜歡「人類層級的智能」這個詞。人們在 Meta 內部也採用了 AMI 這個術語，意思是「高階機器智慧」（Advanced Machine Intelligence），這個字還有點特別，它在法文中是「朋友」（Ami）的意思。

那麼，如何才能讓機器達到人類等級的智慧呢？機器需要具備一些基本能力，例如學習、記憶、理解物理世界、擁有常識、能夠規劃和推理，行為合適，不會變得不守規矩或危險。

他指出，現有的 AI 系統透過一系列神經網路層來進行推理，但這非常有限。

透過優化系統的輸入和輸出相容性，才能實現更強大的推理能力。事實上，任何計算問題都可以簡化為最佳化問題。未來的 AI 系統將基於這種優化推理的原則，而不僅僅是簡單的前饋傳播。這種基於能量的模型，可以用來解釋輸入和輸出之間的兼容性。如果輸入和輸出相容，系統會給出低能量值，反之則是高能量值。

目前的 AI 熱潮集中在大型語言模型（LLM）上，這些模型透過大量的文字資料訓練，預測下一個詞語，基本上就是自回歸的預測方式。這些系統在一定程度上模擬了系統一（System 1）思維，即透過簡單的模式進行反應，但無法像系統二（System 2）一樣進行複雜的推理或規劃。很多人認為，只要讓現有的 AI 模型更大，使用更多的數據訓練，就能達到人類的智慧。但我認為這是非常錯誤的。這些方法不會讓人們實現真正的智能行為，真正的智能需要的是能夠規劃、推理，並且能理解世界的 AI 系統。

打造「世界模型」

LeCun 指出，「世界模型」的作用是預測一系列行動的結果。這些行動可以是自己計畫採取的，也可以是其他人或代理人的行動，甚至是某些將要發生的事件。

這個「世界模型」幫助人們進行規劃。透過它，人們可以讓機器設定一個任務目標，評估是否達成了某些條件。同時，人們也可以設定一些「護欄目標」，確保在執行任務時不會發生意外，例如保證沒人會受傷。這些條件像是一個個「成本函數」，人們會優化它們，讓任務順利完成。

與傳統方法的不同之處在於，人們的「世界模型」是透過學習得到的，而不是透過一堆手寫的方程式。這些模型會透過資料進行訓練。當然，這裡有兩個難題。首先，人們無法比現實時間運行得更快，這是一個限制。其次，世界並不是確定性的。即使物理學家告訴人們世界是確定的，但人們也無法完全預測，因為人們無法獲得世界的所有資訊。

每次給「世界模型」輸入不同的潛在變數時，模型都會給出不同的預測結果。這樣，人們就能處理不確定的情況。人類和動物也是這樣規劃的。人們會進行「分層規劃」，也就是人們會在不同的抽象層次上去理解和規劃世界的狀態。

人們需要建立一個可以在不同抽象層次上運作的「世界模型」。這種模型會幫助 AI 處理從高層次的目標到低層次的具體行動的轉換，如何訓練這種模型目前還不是很明確。這引出了一個被稱為「目標驅動型 AI 系統」的概念。

LeCun 表示，他我兩年半前寫了一篇關於這個構想的願景論文，並在網路上公開了它。這篇論文介紹了一個「認知架構」，其中包含了各種組件，例如感知模組（用於估計世界狀態）、記憶模組、世界模型、成本模組（用於定義任務目標或限制條件），以及執行優化的「行動者」（actor）。

模型「監督學習」、建構圖像辨識

在過去幾年中，監督學習在自然語言處理（NLP）領域非常成功。它的核心思想是，系統從大規模資料中自我學習，輸入和輸出沒有明顯的區分，系統會透過恢復部分破壞的輸入來學習理解整個情境。但儘管如此，現有的 LLM 依然無法勝任許多日常任務。

現有的 AI 在處理現實世界的複雜性上仍有很大不足，而這些挑戰主要來自於對現實世界的感知和行動控制的複雜性。解決這些問題需要新的計算思路和模型。

目前科學家使用了一種叫做「對比學習」的方法，例如來自 Google 團隊的 SIMCLIR，團隊成員包括 Jeff Hinton。還在 90 年代推動的「孿生網路」（Siamese Nets）。對比學習的一個問題是，它產生的嵌入表示通常維度較低，結果有時會顯得退化。

在圖像辨識的背景下，可以拿兩張相同的圖片，把其中一張破壞或改變一下，例如調整大小、旋轉、改變顏色，甚至掩蓋圖片的一部分。然後，訓練一個編碼器和一個預測器，讓它從損壞的圖片中預測出原始圖片的表示。訓練完成後，可以移除預測器，把編碼器當作分類器的輸入，接著用監督式學習來完成任務，例如辨識圖片中的物件。

這種方法在從圖像中提取通用特徵方面非常有效。相較之下，有些使用產生模型的系統，例如自動編碼器（Autoencoders）、變分自動編碼器（VAEs）等，效果不如聯合嵌入架構。這種聯合嵌入的方法在多項任務中表現出色，尤其是在最大化編碼器提取的資訊量時效果尤為明顯。

為了實現這一點，人們使用了一個叫做「方差 - 協方差正規化」（VCRG）的技巧。這個方法確保每個編碼器輸出的變數有足夠的方差，同時也盡量減少這些變數之間的相關性，確保每個變數都是獨立的。還有一種非常有效的方法叫做「蒸餾法」。蒸餾法透過兩個編碼器共享權重，其中一個編碼器的權重是另一個編碼器權重的時間平均值。這種方法雖然原理上有些神秘，但實際效果非常好，像 DeepMind 的 BYOL 和 Meta 的 Dinov2 等模型都是基於這種方法建構的。

人們已經在一些簡單的任務上測試了這個系統，例如在迷宮中移動物體、推動物體到指定位置等任務上，結果都非常好。人們也在一個複雜的任務中測試了這個系統，例如透過機械手臂移動桌面上的物體，並成功實現了目標。這證明了系統的強大能力。

結論與建議

針對相關領域的研究生，LeCun 提出五個主要建議：

1. 放棄生成模型，轉向使用聯合嵌入預測架構（JEPA）。

2. 放棄機率模型，轉向基於能量的模型。

3. 放棄對比學習方法，採用正規化方法。

4. 放棄強化學習，強化學習不適合達到人類層次的 AI。

5. 不要在 LLM（大型語言模型）上浪費時間。

LeCun 認為，LLM 並不會是下一場 AI 革命的關鍵，也不會幫助系統真正理解物理世界。更重要的是，大公司已經投入大量資源研究 LLM，沒有太多可以貢獻的空間。雖然 LLM 目前在許多領域有應用，但它們的壽命大概只有三到五年。以後，LLM 可能會成為更大系統的一部分，但主流架構將會不同。如果想找一份工作，可以考慮從事 LLM 相關工作，但未來的 AI 革命不會依賴於此。

他表示，人們現在能使用的數據主要是英文文本，涵蓋範圍很有限。未來的 AI 系統需要在全球範圍內訓練，能夠存取不同語言和文化的數據，這樣才能代表所有人類知識的寶庫。

這種系統需要全球合作，分散式訓練，才能確保它不僅服務於少數公司或國家的利益。人們不能只依賴幾家美國公司提供的 AI 模型，因為這對全球許多政府來說是不可接受的。就像新聞界需要多樣化的聲音，AI 系統也需要多樣性。

總的來說，如果人們做得對，AI 可能會帶來新的知識復興，類似於 15 世紀印刷術帶來的革命性變化。人們應該努力朝著這個目標前進，讓 AI 真正放大人類的智慧。

Meta首席科學家：AI很有發展但大模型語言缺乏關鍵能力

現有 AI 的局限性

打造「世界模型」

模型「監督學習」、建構圖像辨識

結論與建議

相關貼文

相關新聞

Meta首席科學家：AI很有發展 但大模型語言缺乏關鍵能力

現有 AI 的局限性

打造「世界模型」

模型「監督學習」、建構圖像辨識

結論與建議

相關貼文

相關新聞

Meta首席科學家：AI很有發展但大模型語言缺乏關鍵能力