AI能力新層次！OpenAI發布兩款全新01模型 mini版便宜80% preview版推理得分輾壓GPT-4o

美國 OpenAI 公司 9 月 13 日凌晨正式推出兩款全新的 AI 模型：OpenAI o1-preview 和 o1-mini。這些模型旨在解決各種複雜任務，並在數學推理、編程和科學問題的能力上有顯著提升，能夠應對比以往更具挑戰性的問題。

OpenAI 表示，從即日起，ChatGPT Plus 和 Team 用戶將可以在 ChatGPT 中訪問 o1 模型，但使用上會有一定限制：o1-preview 每週可發送 30 條消息，而 o1-mini 則為 50 條。

OpenA 執行長 Sam Altman 指出，這是目前為止功能最強大且最一致的模型系列，代表著向無限推理模型邁出的一小步。他強調，雖然 o1 模型仍存在缺陷，但在解決複雜推理任務方面已經取得了重大進展。

OpenAI 表示，作為早期模型，它還不具備 ChatGPT 的許多實用功能，例如瀏覽網頁以獲取資訊以及上傳文件和圖片。對於許多常見情況，GPT-4o 將在短期內變得更強大。但對於複雜的推理任務來說，這是一個重大進步，代表了人工智慧能力的新層次。有鑑於此，我們將計數器重設為 1，並將該系列命名為 OpenAI o1。

在工作原理方面，OpenAI 表示這些模型經過長時間的訓練，能夠更有效地思考問題並做出反應，類似於人類的思維過程。在測試中，o1 模型在物理、化學和生物學等挑戰性基準任務上的表現接近博士生水準。在國際數學奧林匹克 (IMO) 資格考試中，GPT-4o 僅正確解決了 13% 的問題，而推理模型得分為 83%。他們的編碼能力在比賽中得到了評估，並在 Codeforces 比賽中達到了第 89 個百分位。

安全性方面，OpenAI 開發了一種新的安全訓練方法，以確保模型遵循安全和協調準則。測試結果顯示，o1-preview 模型在安全測試中得分 84，顯著高於以往版本。

「我們衡量安全性的一種方法是測試當使用者試圖繞過安全規則（稱為『越獄』）時，我們的模型如何繼續遵循安全規則。在我們最嚴格的越獄測試之一中，GPT-4o 得分為 22（0-100 分制），而我們的 o1 預覽模型得分為 84。」OpenAI 說。

適合對象方面，若使用者欲解決科學、編碼、數學和類似領域的複雜問題，這些增強的推理能力可能特別有用。例如，醫療研究人員可以使用 o1 來註釋細胞定序數據，物理學家可以使用 o1 來產生量子光學所需的複雜數學公式，各領域的開發人員可以使用 o1 來建立和執行多步驟工作流程。

o1-mini 作為一款速度更快、價格更低的推理模型，相較於 o1-preview 便宜 80%，特別適合需要推理但不需廣泛世界知識的應用場景。OpenAI 表示，o1-mini 在準確生成和調試複雜代碼方面表現出色，可與。o1-preview 相媲美。

未來，OpenAI 計畫進一步擴大這些模型的使用範圍，並期望在 ChatGPT 和 API 中引入更多功能，包括瀏覽網頁、文件和圖片上傳等，持續推動人工智慧技術的發展。

AI能力新層次！OpenAI發布兩款全新01模型 mini版便宜80% preview版推理得分輾壓GPT-4o

延伸閱讀

相關貼文

相關新聞