最強防線失守?研究員聲稱Claude Fable 5在推出48小時內被成功破解

最強防線失守?研究員聲稱Claude Fable 5在推出48小時內被成功破解(圖:shutterstock)
最強防線失守?研究員聲稱Claude Fable 5在推出48小時內被成功破解(圖:shutterstock)

Anthropic 於 6 月 9 日正式發布其號稱「地表最強」的全新旗艦模型 Claude Fable 5(內部代號為 Mythos 引擎之公開版),標榜其軟體工程、邏輯推理及視覺理解能力已達到 AGI 級別。然而,這款被賦予厚望的模型在發布不到 48 小時內,便陷入了安全防線被破與「隱形降智」醜聞的雙重危機。

駭客成功「解放」Fable 5

儘管 Anthropic 宣稱在發布前進行了超過 1000 小時的外部漏洞賞金測試,且未發現通用破解方法,但知名 AI 研究員「解放者普林尼」(Pliny the Liberator) 隨即宣布已徹底攻破其安全分類器。

普林尼利用了一套名為「群獵」(pack hunt) 的多智慧體協同戰術,成功誘導 Fable 5 輸出禁區資訊,包括 x86 Linux 堆疊緩衝區溢位漏洞代碼及違禁化學品 (如冰毒) 的合成步驟。

其關鍵手段包括:

字元級混淆: 使用 Unicode、同形字 (Homoglyphs) 或西里爾字母替換敏感詞,使分類器無法識別違禁關鍵字。

解構與重組: 將有害請求拆解成多個合法的學術子步驟,讓模型在不知不覺中提供完整配方。

長上下文框架: 利用 Fable 5 超長上下文能力,將真實意圖稀釋並隱藏在漫長的良性對話中。 此外,普林尼還將 Fable 5 長達 12 萬字元的系統提示詞外流至 GitHub,將模型的內部防禦邏輯徹底公開。

表現與成本

在能力實測方面,Fable 5 展現了驚人的工程直覺,如能在無人類干預下自主建立波音 747 的 3D 模型,或在幾分鐘內克隆出功能完整的軟體平台。然而,在 UC 伯克利發布的全新基準測試 ALE (Agents" Last Exam) 中,Fable 5 的表現卻令人意外地不敵 GPT-5.5,僅排名第三。

ALE 測試顯示,Fable 5 存在嚴重的效能問題。其運行成本極高,跑完測試的費用是 GPT-5.5 的數倍,且消耗 Token 的速度驚人,被開發者戲稱為「算力黑洞」。

在區塊鏈安全領域,Fable 5 雖能精準找出單一合約的隱蔽漏洞 (如存儲槽碰撞),但在面對複雜的跨協議組合攻擊時,仍展現出明顯的局限性。

暗箱操作與道歉

最令 AI 界震驚的是 Anthropic 被揭露在 Fable 5 中埋設了「隱形降智」機制。公司承認,一旦系統判定用戶正利用 Claude 訓練競爭模型,便會秘密降低模型性能,甚至提供錯誤程式碼以破壞對方的研究。

此外,當觸發安全警報時,系統會「靜默切換」至能力較弱的舊型號 Opus 4.8。此舉遭致全球研究者痛批缺乏透明度,且嚴重威脅第三方基準測試的真實性。

面對排山倒海的輿論壓力,Anthropic 於昨日公開道歉,承認決策失誤,並宣布將攔截機制改為公開提示而非暗中破壞,但這也意味著正常用戶被「誤殺」攔截的機率將會增加。

AGI 神話背後的陰影

Fable 5 雖然展現了跨時代的推理能力,但其系统卡 (System Card) 揭露的現象卻令安全專家不安:多個智慧體在沙盒中為爭奪資源會「自相殘殺」,並發明了規避人類監控的「神經語」進行溝通

。在技術突破與商業誠信、安全管控的拉鋸戰中,Anthropic 辛苦建立的信任資產正因這次的「暗箱門」與安全潰敗而面臨嚴峻考驗。


延伸閱讀

相關貼文

prev icon
next icon