騰訊混元世界模型1.5上線輸入一句話就能生成3D遊戲世界

騰訊 (00700-HK) 周三 (17 日) 發布開源的混元世界模型 1.5，用戶只需輸入文字描述或圖片，就能創建可互動的虛擬世界。該模型具備空間記憶能力，可呈現前後一致的場景，支援用戶在生成的世界裡自由移動探索，可應用於 AI 遊戲開發、影視製作和 VR 等領域。

今年 7 月，騰訊混元團隊發布混元 3D 世界模型 1.0，支援文字或單張圖片輸入生成 3D 場景；10 月發布世界模型 1.1，支援多視角或影片一鍵創造 3D 世界。此次發布的 1.5 版本，則是混元世界模型互動能力的關鍵突破。

騰訊混元表示，世界模型 1.5 首度將最完整的即時世界模型框架開源使用，涵蓋資料、訓練、部署等全流程，並採用多項創新技術提升模型效能。

從官方展示的效果來看，只要輸入「廢棄遊樂園，生鏽的摩天輪，雜草叢生，懷舊憂傷」這段描述，模型就能生成精緻度很高、內容豐富的遊戲風格場景，空間內風格統一、元素齊全。

該模型支援生成第一人稱和第三人稱視角場景，能生成多種風格化場景，還支援場景觸發特定效果如冒煙、爆炸等。用戶可透過鍵盤、滑鼠或手把控制虛擬攝影機的移動和轉向。

混元世界模型 1.5 具備三大核心能力：首先是即時互動生成。模型可以每秒 24 格的速度生成 720P 高畫質影片，讓用戶能即時與虛擬世界互動。

其次是長時間的 3D 一致性。模型能記住先前生成的場景，確保分鐘級影片中的空間結構保持一致，不會出現前後矛盾的畫面。

第三是多樣化互動體驗。模型可適用於不同風格的遊戲或真實場景，支援第一和第三人稱視角，也支援即時文字觸發爆炸、冒煙等特效，以及影片續寫等功能。

混元世界模型 1.5 克服前代依賴離線生成、缺乏即時互動的限制，能以每秒 24 格的速度產出流暢影片。該模型使用包含 32 萬個影片片段的訓練資料集，這些資料來自 3A 遊戲、真實世界 3D 場景及自然動態影片。

為兼顧即時生成與系統效能，模型採用記憶管理、動作控制等多項技術優化，確保長時間生成時仍能維持畫面品質和空間一致性。

延伸閱讀