AI越來越會騙、玩遊戲還搞背叛!專家:全球應一起解決風險並做好準備

最新研究顯示,AI 越來越擅長欺騙、操縱人類了,根據麻省理工 (MIT)、澳洲天主教大學及 Center for AI Safety 研究人員上周五(10 日) 在《Patterns》刊登的一篇文章,AI 已學會欺騙人類,甚至是那些被訓練成、有益且誠實的系統。文中描述了 AI 欺騙性的風險,並呼籲全球一起解決這一問題。

研究人員透通過各種實例發現,AI 在各類遊戲中,通過佯裝、歪曲偏好等方式欺騙人類,最終達成目標。他們將欺騙定義為,系統性地誘導產生虛假信念,以追求除了尋求真相以外的某種結果。

他們先回顧以往 AI 欺騙的經典案例,討論專用 AI 系統(Meta 的 CICERO)跟通用 AI 系統,也就是大語言模型 (LLM),接下來詳述了 AI 欺騙帶來的幾種風險,像是詐欺、操縱選舉,甚至是失去對 AI 的控制。

研究人員還舉出的 AI 學會欺騙的經典案例。2022 年,Meta(META-US) 發佈 AI 系統 CICERO 在玩 40 局「Diplomacy」遊戲後達到人類水準時,引發一陣轟動。

儘管 CICERO 沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入前 10%,表現足夠優秀,而 MIT 等研究人員在分析中發現,最引人矚目的 AI 欺騙例子便是 CICERO。

雖然 Meta 聲稱 CICERO 在很大程度上是誠實和樂於助人的,並且在玩遊戲時從不故意背叛人類盟友,但在 MIT 等研究發現,CICERO 會有預謀地欺騙人類。

在遊戲中,CICERO 承諾與其他玩家結盟,當他們不再為贏得比賽的目標服務時,AI 背叛了自己的盟友,期間一度當機,但當機回來後,人類玩家問它去哪,CICERO 稱剛和女友通話。

此外,在戰略遊戲《星際爭霸 II》中,DeepMind 開發的自主 AI—AlphaStar 為了擊敗對手竟學會了虛假攻擊。

AlphaStar 的遊戲數據顯示其已學會有效地佯攻,派遣部隊到某一區域分散注意力,然後在對手轉移後在其他地方發動攻擊。

有些情況,AI 甚至自然而然地學會如何欺騙。Meta 和 CMU 開發的德州撲克 AI 系統 Pluribus 在與 5 名專業玩家比賽,完全具備了虛張聲勢能力。

目前 AI 訓練的一種流行方法是人類反饋強化學習 (RLHF),但 RLHF 允許 AI 學會欺騙人類審查員,使他們相信任務已經成功完成,但實際上並沒有真正完成該任務。

除此以外,MIT 等研究人員還總結 LLM 參與的不同類型的欺騙,包括戰略性欺騙、奉承、不忠實的推理。

文章最後,研究人員還分析 AI 欺騙人類可能會帶來的詐欺、政治風險,甚至是恐怖分子招募事件。

研究人員表示,從根本上說,目前不可能訓練一個在所有可能的情況下,都不能欺騙的 AI 模型。

欺騙性人工智慧的主要短期風險,包括舞弊和篡改選舉,最終若 AI 繼續提升這些「技能」,人類恐失去對 AI 的控制。

研究人員表示,全球必須盡可能用更多的時間,為未來 AI 產品和開源模型的更高級欺騙做好準備。