研究 : GPT和其他AI模型無法分析SEC文件

一家名為 Patronus AI 的新創公司的研究人員發現,大型語言模型 (LLM) 經常無法回答來自美國證券交易委員會 (SEC) 文件的問題。

該公司創始人指出,即使是在性能最好的 AI 模型配置 OpenAI 的 GPT-4-Turbo,在具備閱讀問題和幾乎整個文件的能力時,在 Patronus AI 的新測試中也只能得到 79% 的答案。

在大多數情況下,所謂的 LLM 會拒絕回答,或會「幻想」出 SEC 文件中沒有的數據和事實。

Patronus AI 聯合創始人坎納潘 (Anand Kannappan) 表示:「這種性能率絕對令人無法接受。」「它必須高得更多才能真正以自動化和生產就緒的方式工作。」

研究結果凸顯了人工智慧 (AI) 模型面臨的一些挑戰,因為大型企業、尤其是金融等受監管行業,尋求將尖端技術融入其營運中,無論是用於客戶服務還是研究。

自去年年底發布 ChatGPT 以來,快速提取重要數據並對財務敘述進行分析的能力,被視為聊天機器人最有前途的應用之一。SEC 的文件充滿了重要數據,如果機器人能夠準確地總結這些數據或快速回答有關其中內容的問題,它可以讓用戶在競爭激烈的金融行業中搶得先機。

根據 CNBC 報導,彭博社去年開發了自有的金融數據 AI 模型,商學院教授研究 ChatGPT 是否可以解析金融頭條新聞,摩根大通 (JPM-US) 正在開發 AI 驅動的自動化投資工具。麥肯錫最近的預測稱,生成式 AI 每年可為銀行業帶來數兆美元的收入。

但 GPT 進入該行業的過程並不順利。當微軟 (MSFT-US) 首次使用 OpenAI 的 GPT 推出 Bing Chat 時,其主要範例之一是使用聊天機器人快速總結財報新聞稿。 觀察家很快就意識到微軟範例中的數字有誤,有些數字完全是捏造的。

Patronus AI 聯合創始人表示,將 LLM 融入實際產品時面臨的部分挑戰是 LLM 無法判別。它們不能保證每次對於相同的輸入都會產生相同的輸出。這意味著公司將需要進行更嚴格的測試,以確保它們正確運行、不會偏離主題並提供可靠的結果。