OpenAI升級ChatGPT 會說話且能識圖

OpenAI 周一 (25 日) 在官網宣布，將在未來兩周內對 ChatGPT Plus 和企業用戶推出 ChatGPT 的語音和圖片功能，讓使用者能和 ChatGPT 進行語音對話或展示圖片做出相關回應。

語音功能方面，ChatGPT 可以用語音來回答問題和命令，與蘋果 (AAPL-US) 的 Siri 等個人助理相互較勁。據了解，ChatGPT 將會有 5 種不同的語音供用戶選擇，同時支援語音音訊生成文本、將播客 (Podcast) 語音翻譯成其他語言等功能。

例如，OpenAI 正在與 Spotify(SPOT-US) 合作，將播客翻譯成其他語言，同時保持播客的聲音。值得注意的是，合成語音有很多有趣的用途，OpenAI 可能會成為這一行業的重要組成部分。

OpenAI 於今年 5 月發布 ChatGPT 應用程式 (App)，並已經提供了語音轉文本功能，而新增語音回覆功能可讓用戶感覺在進行更人性化的對話。該公司希望這項新功能能鼓勵用戶隨時隨地使用其行動 App，並與 Google(GOOGL-US) 的 Assistant、蘋果的 Siri 或亞馬遜 (AMZN-US) 的 Alexa 等個人助理產品形成直接的競爭。

圖片功能方面，用戶能向 ChatGPT 傳送圖片並詢問相關問題，其可以根據圖片回答或給出建議。據悉，語音功能將在 iOS 和安卓 (Android) 平台推出，圖片功能則將登陸所有平台。

例如，用戶可以上傳一張粉色太陽鏡的圖片，並要求聊天機器人推薦與之搭配的服裝，或者提交一張數學問題的圖片，並請求説明解決。

該公司還表示，付費用戶和企業用戶將可使用圖片功能，圖片搜索有點像 Google 的 Lens，只需拍下感興趣的照片，ChatGPT 就會找出問題所在，並做出相應的回應。

分析指出，自從 2022 年初推出 ChatGPT 以來，OpenAI 一直在努力為其機器人增添更多功能和能力，同時避免造成新的問題出現。而透過這次升級，該公司試圖在這條界線上尋找平衡點，透過有意識的限制其新模型能做什麼來實現這一目標。

但是這種方法並非長久之計，隨著越來越多的人使用語音控制和圖片搜索，以及 ChatGPT 逐漸成為一個真正的多模態、實用的虛擬助手，要保持安全和合理的邊界會變得越來越困難。

另一方面，這次升級無疑讓 ChatGPT 距離「超級助理」更進了一步，同時與下游軟體的競爭也更加激烈。

分析指出，微軟和 OpenAI 均能向需要構建 AI 能力的企業客戶提供技術服務，兩者之間存在著直接的業務衝突。從長期來看，如果 OpenAI 加速布局面向個人及企業的軟體，ChatGPT 未來很有可能將重塑客戶端應用生態，或許兩者的「關係破裂」是早晚的事情。

OpenAI升級ChatGPT 會說話且能識圖

延伸閱讀

相關貼文

相關新聞