騰訊混元世界模型1.5上線 輸入一句話就能生成3D遊戲世界

騰訊混元世界模型1.5讓用戶透過簡單文字描述,就能生成可自由探索的3D遊戲場景。
騰訊混元世界模型1.5讓用戶透過簡單文字描述,就能生成可自由探索的3D遊戲場景。

騰訊 (00700-HK) 周三 (17 日) 發布開源的混元世界模型 1.5,用戶只需輸入文字描述或圖片,就能創建可互動的虛擬世界。該模型具備空間記憶能力,可呈現前後一致的場景,支援用戶在生成的世界裡自由移動探索,可應用於 AI 遊戲開發、影視製作和 VR 等領域。

今年 7 月,騰訊混元團隊發布混元 3D 世界模型 1.0,支援文字或單張圖片輸入生成 3D 場景;10 月發布世界模型 1.1,支援多視角或影片一鍵創造 3D 世界。此次發布的 1.5 版本,則是混元世界模型互動能力的關鍵突破。

騰訊混元表示,世界模型 1.5 首度將最完整的即時世界模型框架開源使用,涵蓋資料、訓練、部署等全流程,並採用多項創新技術提升模型效能。

從官方展示的效果來看,只要輸入「廢棄遊樂園,生鏽的摩天輪,雜草叢生,懷舊憂傷」這段描述,模型就能生成精緻度很高、內容豐富的遊戲風格場景,空間內風格統一、元素齊全。

該模型支援生成第一人稱和第三人稱視角場景,能生成多種風格化場景,還支援場景觸發特定效果如冒煙、爆炸等。用戶可透過鍵盤、滑鼠或手把控制虛擬攝影機的移動和轉向。

三大核心能力

混元世界模型 1.5 具備三大核心能力:首先是即時互動生成。模型可以每秒 24 格的速度生成 720P 高畫質影片,讓用戶能即時與虛擬世界互動。

其次是長時間的 3D 一致性。模型能記住先前生成的場景,確保分鐘級影片中的空間結構保持一致,不會出現前後矛盾的畫面。

第三是多樣化互動體驗。模型可適用於不同風格的遊戲或真實場景,支援第一和第三人稱視角,也支援即時文字觸發爆炸、冒煙等特效,以及影片續寫等功能。

採用全新強化學習架構

混元世界模型 1.5 克服前代依賴離線生成、缺乏即時互動的限制,能以每秒 24 格的速度產出流暢影片。該模型使用包含 32 萬個影片片段的訓練資料集,這些資料來自 3A 遊戲、真實世界 3D 場景及自然動態影片。

為兼顧即時生成與系統效能,模型採用記憶管理、動作控制等多項技術優化,確保長時間生成時仍能維持畫面品質和空間一致性。


延伸閱讀

相關貼文

prev icon
next icon