AI越來越會騙、玩遊戲還搞背叛！專家：全球應一起解決風險並做好準備

鉅亨網新聞中心2024年5月14號14點29分

最新研究顯示，AI 越來越擅長欺騙、操縱人類了，根據麻省理工 (MIT)、澳洲天主教大學及 Center for AI Safety 研究人員上周五(10 日) 在《Patterns》刊登的一篇文章，AI 已學會欺騙人類，甚至是那些被訓練成、有益且誠實的系統。文中描述了 AI 欺騙性的風險，並呼籲全球一起解決這一問題。

研究人員透通過各種實例發現，AI 在各類遊戲中，通過佯裝、歪曲偏好等方式欺騙人類，最終達成目標。他們將欺騙定義為，系統性地誘導產生虛假信念，以追求除了尋求真相以外的某種結果。

他們先回顧以往 AI 欺騙的經典案例，討論專用 AI 系統（Meta 的 CICERO）跟通用 AI 系統，也就是大語言模型 (LLM)，接下來詳述了 AI 欺騙帶來的幾種風險，像是詐欺、操縱選舉，甚至是失去對 AI 的控制。

研究人員還舉出的 AI 學會欺騙的經典案例。2022 年，Meta(META-US) 發佈 AI 系統 CICERO 在玩 40 局「Diplomacy」遊戲後達到人類水準時，引發一陣轟動。

儘管 CICERO 沒能戰勝世界冠軍，但它在與人類參與者的比賽中進入前 10%，表現足夠優秀，而 MIT 等研究人員在分析中發現，最引人矚目的 AI 欺騙例子便是 CICERO。

雖然 Meta 聲稱 CICERO 在很大程度上是誠實和樂於助人的，並且在玩遊戲時從不故意背叛人類盟友，但在 MIT 等研究發現，CICERO 會有預謀地欺騙人類。

在遊戲中，CICERO 承諾與其他玩家結盟，當他們不再為贏得比賽的目標服務時，AI 背叛了自己的盟友，期間一度當機，但當機回來後，人類玩家問它去哪，CICERO 稱剛和女友通話。

此外，在戰略遊戲《星際爭霸 II》中，DeepMind 開發的自主 AI—AlphaStar 為了擊敗對手竟學會了虛假攻擊。

AlphaStar 的遊戲數據顯示其已學會有效地佯攻，派遣部隊到某一區域分散注意力，然後在對手轉移後在其他地方發動攻擊。

有些情況，AI 甚至自然而然地學會如何欺騙。Meta 和 CMU 開發的德州撲克 AI 系統 Pluribus 在與 5 名專業玩家比賽，完全具備了虛張聲勢能力。

目前 AI 訓練的一種流行方法是人類反饋強化學習 (RLHF)，但 RLHF 允許 AI 學會欺騙人類審查員，使他們相信任務已經成功完成，但實際上並沒有真正完成該任務。

除此以外，MIT 等研究人員還總結 LLM 參與的不同類型的欺騙，包括戰略性欺騙、奉承、不忠實的推理。

文章最後，研究人員還分析 AI 欺騙人類可能會帶來的詐欺、政治風險，甚至是恐怖分子招募事件。

研究人員表示，從根本上說，目前不可能訓練一個在所有可能的情況下，都不能欺騙的 AI 模型。

欺騙性人工智慧的主要短期風險，包括舞弊和篡改選舉，最終若 AI 繼續提升這些「技能」，人類恐失去對 AI 的控制。

研究人員表示，全球必須盡可能用更多的時間，為未來 AI 產品和開源模型的更高級欺騙做好準備。