Google推出AI新工具VideoPoet：文字圖片皆可產生影片與音訊

鉅亨網新聞中心2023年12月20號17點10分

Google(GOOGL-US) 宣布推出一款名為 VideoPoet 的新人工智慧工具，可根據文字輸入產生影片。這一新工具可以創建各種類型的視頻，包括短片、音樂視頻，甚至講解視頻。

VideoPoet 是一個在海量文字和視訊資料集上訓練的大型語言模型 (LLM)。模型能夠理解文字和影片之間的關係，並可以產生連貫且具有視覺吸引力的影片。

與目前主流的擴散模型不同，VideoPoet 將這些視訊生成功能整合在一個大型語言模型中，而不是依賴分別針對每個任務進行訓練的元件。

VideoPoet 最令人印象深刻的事情之一，是它產生長影片的能力。模型可以透過將短片連結在一起來，創建長達幾分鐘的影片。這使得使用 VideoPoet 創建更複雜和細緻的視訊成為可能。

VideoPoet 也可用於編輯現有影片。例如，使用者可以使用該工具為靜態圖像新增動畫，或變更影片的風格。這使得 VideoPoet 成為一個強大的影片編輯工具，即使對於沒有太多經驗的人，也能便於使用。

據報導，這一模型透過多個分詞器 (MAGVIT V2 用於視訊和圖像，SoundStream 用於音訊) 進行訓練，以學習跨視訊、圖像、音訊和文字模態的知識。透過將模型生成的令牌轉換為可視化表示，VideoPoet 能夠輸出動畫、風格化視頻，甚至生成音頻。模型支援文字輸入，以指導文字到影片、圖像到影片等任務的生成。

以下是 VideoPoet 可用來執行的一些特定任務：

文字轉影片：根據文字描述產生影片。
圖像到影片：將靜態圖像動畫化。
影片風格化：對影片應用風格效果。
視訊修復和修復：填充視訊缺失的部分或將視訊擴展到其原始邊界之外。
影片轉音訊：從影片剪輯產生音訊。