輝達秀出新AI模型「Fugatto」各種聲音生成難不倒它

輝達 (NVDA-US) 周一 (25 日) 展示新的生成式人工智慧 (AI) 模型「Fugatto」(為 Foundational Generative Audio Transformer Opus 1 的縮寫)，這款模型能生成音樂、音訊，還可以修改聲音並生成新的聲音，該技術主要瞄準音樂、電影和遊戲製作人，不過目前還沒有公開推出的計畫。

據了解，「Fugatto」加入 Runway 等新創公司和 Meta Platforms(META-US) 等大公司的其他技術，其中包括從文本提示生成音訊或影片。不只如此，這款新的模型還能創造出一些新奇的聲音，例如讓小號發出狗叫聲。

這款模型與其他 AI 技術不同支出在於，其能夠吸收和修改現有音訊，例如能把一段鋼琴曲轉換成人聲歌唱，或者透過錄好的語音改變口音和表達情緒。

輝達應用程式深度學習研究副總裁 Bryan Catanzaro 說：「如果我們回想一下過去 50 年的合成音訊，現在的音樂聽起來大不同，因為有電腦和合成器。我認為生成式 AI 能將音樂、電動遊戲以及想要創造東西的普通人帶來新的能力。」

輝達的新模型是在開放原始碼數據上進行訓練，該公司表示仍在討論是否以及如何公開發表。

Catanzaro 說：「任何生成式技術都會帶來一些風險，因為人們可能會用他來生成我們不希望他們使用的東西。因此需要保持謹慎，這就是為什麼沒有立即推出這款模型的原因。」

生成型 AI 模型的創造者還沒有確定如何防止使用者產生錯誤訊息或透過產生受版權保護的角色來侵犯版權等濫用技術。

與此同時，OpenAI 和 Meta 也同樣沒有說他們計劃什麼時候向大眾推出他們的生成音訊或視訊的模型。

輝達秀出新AI模型「Fugatto」各種聲音生成難不倒它

延伸閱讀

相關貼文

相關新聞