Meta首席科學家:AI很有發展 但大模型語言缺乏關鍵能力

Meta 首席科學家 Yann LeCun(楊立昆)近日發表多篇演講,分享他對人工智慧未來的深刻見解。作為深度學習領域的先驅者和 2018 年圖靈獎得主,LeCun 的觀點引發了廣泛關注。

他近日的演講內容,主要圍繞 AI 的需求與現狀,現有 AI 的局限性,開源 AI 平台的必要性以及通往人類水準的 AI 道路等多個方面。在哥倫比亞大學的演講中,由於他的講說對象是研究生,因此特別針對合適的研究主題多所探討。

LeCun 曾在多次公開駁斥「AI 威脅論」,他認為當今的大型語言模型缺乏一些關鍵的能力,如持久記憶、推理、規劃和理解物理世界。在他看來,在他看來,AI 只是證明可以操縱語言,但並不聰明,而人的智力是非常複雜的,所以真正的通用式人工智慧(AGI)不會到來。

不過,這並不代表他完全懷疑人工智慧,他只是認為需要新的方法。

現有 AI 的局限性

LeCun 認為,人們確實需要人類等級的 AI,因為在未來,人們大多數人都會戴著智慧眼鏡或其他類型的設備,人們會與它們交談,這些系統將擁有助手,也許不僅僅是一個,可能是一整套助手。

庥更喜歡「人類層級的智能」這個詞。人們在 Meta 內部也採用了 AMI 這個術語,意思是「高階機器智慧」(Advanced Machine Intelligence),這個字還有點特別,它在法文中是「朋友」(Ami)的意思。

那麼,如何才能讓機器達到人類等級的智慧呢?機器需要具備一些基本能力,例如學習、記憶、理解物理世界、擁有常識、能夠規劃和推理,行為合適,不會變得不守規矩或危險。

他指出,現有的 AI 系統透過一系列神經網路層來進行推理,但這非常有限。

透過優化系統的輸入和輸出相容性,才能實現更強大的推理能力。事實上,任何計算問題都可以簡化為最佳化問題。未來的 AI 系統將基於這種優化推理的原則,而不僅僅是簡單的前饋傳播。這種基於能量的模型,可以用來解釋輸入和輸出之間的兼容性。如果輸入和輸出相容,系統會給出低能量值,反之則是高能量值。

目前的 AI 熱潮集中在大型語言模型(LLM)上,這些模型透過大量的文字資料訓練,預測下一個詞語,基本上就是自回歸的預測方式。這些系統在一定程度上模擬了系統一(System 1)思維,即透過簡單的模式進行反應,但無法像系統二(System 2)一樣進行複雜的推理或規劃。很多人認為,只要讓現有的 AI 模型更大,使用更多的數據訓練,就能達到人類的智慧。但我認為這是非常錯誤的。這些方法不會讓人們實現真正的智能行為,真正的智能需要的是能夠規劃、推理,並且能理解世界的 AI 系統。

打造「世界模型」

LeCun 指出,「世界模型」的作用是預測一系列行動的結果。這些行動可以是自己計畫採取的,也可以是其他人或代理人的行動,甚至是某些將要發生的事件。

這個「世界模型」幫助人們進行規劃。透過它,人們可以讓機器設定一個任務目標,評估是否達成了某些條件。同時,人們也可以設定一些「護欄目標」,確保在執行任務時不會發生意外,例如保證沒人會受傷。這些條件像是一個個「成本函數」,人們會優化它們,讓任務順利完成。

與傳統方法的不同之處在於,人們的「世界模型」是透過學習得到的,而不是透過一堆手寫的方程式。這些模型會透過資料進行訓練。當然,這裡有兩個難題。首先,人們無法比現實時間運行得更快,這是一個限制。其次,世界並不是確定性的。即使物理學家告訴人們世界是確定的,但人們也無法完全預測,因為人們無法獲得世界的所有資訊。

每次給「世界模型」輸入不同的潛在變數時,模型都會給出不同的預測結果。這樣,人們就能處理不確定的情況。人類和動物也是這樣規劃的。人們會進行「分層規劃」,也就是人們會在不同的抽象層次上去理解和規劃世界的狀態。

人們需要建立一個可以在不同抽象層次上運作的「世界模型」。這種模型會幫助 AI 處理從高層次的目標到低層次的具體行動的轉換,如何訓練這種模型目前還不是很明確。這引出了一個被稱為「目標驅動型 AI 系統」的概念。

LeCun 表示,他我兩年半前寫了一篇關於這個構想的願景論文,並在網路上公開了它。這篇論文介紹了一個「認知架構」,其中包含了各種組件,例如感知模組(用於估計世界狀態)、記憶模組、世界模型、成本模組(用於定義任務目標或限制條件),以及執行優化的「行動者」(actor)。

模型「監督學習」、建構圖像辨識

在過去幾年中,監督學習在自然語言處理(NLP)領域非常成功。它的核心思想是,系統從大規模資料中自我學習,輸入和輸出沒有明顯的區分,系統會透過恢復部分破壞的輸入來學習理解整個情境。但儘管如此,現有的 LLM 依然無法勝任許多日常任務。

現有的 AI 在處理現實世界的複雜性上仍有很大不足,而這些挑戰主要來自於對現實世界的感知和行動控制的複雜性。解決這些問題需要新的計算思路和模型。

目前科學家使用了一種叫做「對比學習」的方法,例如來自 Google 團隊的 SIMCLIR,團隊成員包括 Jeff Hinton。還在 90 年代推動的「孿生網路」(Siamese Nets)。對比學習的一個問題是,它產生的嵌入表示通常維度較低,結果有時會顯得退化。

在圖像辨識的背景下,可以拿兩張相同的圖片,把其中一張破壞或改變一下,例如調整大小、旋轉、改變顏色,甚至掩蓋圖片的一部分。然後,訓練一個編碼器和一個預測器,讓它從損壞的圖片中預測出原始圖片的表示。訓練完成後,可以移除預測器,把編碼器當作分類器的輸入,接著用監督式學習來完成任務,例如辨識圖片中的物件。

這種方法在從圖像中提取通用特徵方面非常有效。相較之下,有些使用產生模型的系統,例如自動編碼器(Autoencoders)、變分自動編碼器(VAEs)等,效果不如聯合嵌入架構。這種聯合嵌入的方法在多項任務中表現出色,尤其是在最大化編碼器提取的資訊量時效果尤為明顯。

為了實現這一點,人們使用了一個叫做「方差 - 協方差正規化」(VCRG)的技巧。這個方法確保每個編碼器輸出的變數有足夠的方差,同時也盡量減少這些變數之間的相關性,確保每個變數都是獨立的。還有一種非常有效的方法叫做「蒸餾法」。蒸餾法透過兩個編碼器共享權重,其中一個編碼器的權重是另一個編碼器權重的時間平均值。這種方法雖然原理上有些神秘,但實際效果非常好,像 DeepMind 的 BYOL 和 Meta 的 Dinov2 等模型都是基於這種方法建構的。

人們已經在一些簡單的任務上測試了這個系統,例如在迷宮中移動物體、推動物體到指定位置等任務上,結果都非常好。人們也在一個複雜的任務中測試了這個系統,例如透過機械手臂移動桌面上的物體,並成功實現了目標。這證明了系統的強大能力。

結論與建議

針對相關領域的研究生,LeCun 提出五個主要建議:

1. 放棄生成模型,轉向使用聯合嵌入預測架構(JEPA)。

2. 放棄機率模型,轉向基於能量的模型。

3. 放棄對比學習方法,採用正規化方法。

4. 放棄強化學習,強化學習不適合達到人類層次的 AI。

5. 不要在 LLM(大型語言模型)上浪費時間。

LeCun 認為,LLM 並不會是下一場 AI 革命的關鍵,也不會幫助系統真正理解物理世界。更重要的是,大公司已經投入大量資源研究 LLM,沒有太多可以貢獻的空間。雖然 LLM 目前在許多領域有應用,但它們的壽命大概只有三到五年。以後,LLM 可能會成為更大系統的一部分,但主流架構將會不同。如果想找一份工作,可以考慮從事 LLM 相關工作,但未來的 AI 革命不會依賴於此。

他表示,人們現在能使用的數據主要是英文文本,涵蓋範圍很有限。未來的 AI 系統需要在全球範圍內訓練,能夠存取不同語言和文化的數據,這樣才能代表所有人類知識的寶庫。

這種系統需要全球合作,分散式訓練,才能確保它不僅服務於少數公司或國家的利益。人們不能只依賴幾家美國公司提供的 AI 模型,因為這對全球許多政府來說是不可接受的。就像新聞界需要多樣化的聲音,AI 系統也需要多樣性。

總的來說,如果人們做得對,AI 可能會帶來新的知識復興,類似於 15 世紀印刷術帶來的革命性變化。人們應該努力朝著這個目標前進,讓 AI 真正放大人類的智慧。