OpenAI發布多模態AI模型「GPT-4」 可支援圖片輸入

以開發出聊天機器人 ChatGPT 而聞名的 OpenAI ,周二 (14 日) 發布名為「GPT-4」的最新人工智慧 (AI) 模型,除了準確度、創造力和協作性更高之外,這項最新 AI 模型還可支援圖片輸入功能,讓 GPT-4 以文字來解釋圖像內容,甚至回答問題。

OpenAI 透過部落格文章表示,GPT-4 是一種多模態 (multimodal) 的 AI 模型,除了文字輸入以外,還可透過圖像輸入來生成內容,將開放給 ChatGPT Plus 的付費訂閱者使用。

OpenAI 指出,相較於前一版的 GPT-3.5,GPT-4 有了巨幅改進,在模擬美國法學院畢業生參加律師考試的實測中,GPT-4 的分數可達到前 10% 左右,GPT-3.5 卻只能落在後 10%。

OpenAI 說,雖然在一般對話中,兩種版本模型的生成內容相當類似,但是當任務的複雜度達到一定門檻時,差異就會浮現,GPT-4 更有能力處理更細膩的指令。

微軟上月宣布,將把 GPT-4 模型整合到自家的 Bing 搜尋引擎,為用戶提供類似 ChatGPT 的對話體驗。

根據 OpenAI ,摩根士丹利正在使用 GPT-4 來整理數據,電子支付商 Stripe 也在測試是否可利用 GPT-4 來杜絕詐騙,其他客戶還包含線上語言學習 App「Duolingo」、線上學習平台可汗學院 (Khan Academy) 以及冰島政府。

為視障和弱視族群提供協助的「Be My Eyes」App,也透過 GPT-4 建立線上志願服務,允許人們將圖像傳送到這個由 AI 驅動的服務,藉由回答問題的方式來提供視覺輔助。

不過,與上一版的 GPT-3 一樣,GPT-4 大部分是根據 2021 年 9 月以前的資料進行訓練,因此無法對較新的事件作出回應。