OpenAI發布多模態AI模型「GPT-4」可支援圖片輸入

鉅亨網編譯林薏禎2023年3月15號7點31分

以開發出聊天機器人 ChatGPT 而聞名的 OpenAI ，周二 (14 日) 發布名為「GPT-4」的最新人工智慧 (AI) 模型，除了準確度、創造力和協作性更高之外，這項最新 AI 模型還可支援圖片輸入功能，讓 GPT-4 以文字來解釋圖像內容，甚至回答問題。

OpenAI 透過部落格文章表示，GPT-4 是一種多模態 (multimodal) 的 AI 模型，除了文字輸入以外，還可透過圖像輸入來生成內容，將開放給 ChatGPT Plus 的付費訂閱者使用。

OpenAI 指出，相較於前一版的 GPT-3.5，GPT-4 有了巨幅改進，在模擬美國法學院畢業生參加律師考試的實測中，GPT-4 的分數可達到前 10% 左右，GPT-3.5 卻只能落在後 10%。

OpenAI 說，雖然在一般對話中，兩種版本模型的生成內容相當類似，但是當任務的複雜度達到一定門檻時，差異就會浮現，GPT-4 更有能力處理更細膩的指令。

微軟上月宣布，將把 GPT-4 模型整合到自家的 Bing 搜尋引擎，為用戶提供類似 ChatGPT 的對話體驗。

根據 OpenAI ，摩根士丹利正在使用 GPT-4 來整理數據，電子支付商 Stripe 也在測試是否可利用 GPT-4 來杜絕詐騙，其他客戶還包含線上語言學習 App「Duolingo」、線上學習平台可汗學院 (Khan Academy) 以及冰島政府。

為視障和弱視族群提供協助的「Be My Eyes」App，也透過 GPT-4 建立線上志願服務，允許人們將圖像傳送到這個由 AI 驅動的服務，藉由回答問題的方式來提供視覺輔助。

不過，與上一版的 GPT-3 一樣，GPT-4 大部分是根據 2021 年 9 月以前的資料進行訓練，因此無法對較新的事件作出回應。

OpenAI發布多模態AI模型「GPT-4」 可支援圖片輸入