騰訊 (00700-HK) 周三 (17 日) 發布開源的混元世界模型 1.5,用戶只需輸入文字描述或圖片,就能創建可互動的虛擬世界。該模型具備空間記憶能力,可呈現前後一致的場景,支援用戶在生成的世界裡自由移動探索,可應用於 AI 遊戲開發、影視製作和 VR 等領域。
今年 7 月,騰訊混元團隊發布混元 3D 世界模型 1.0,支援文字或單張圖片輸入生成 3D 場景;10 月發布世界模型 1.1,支援多視角或影片一鍵創造 3D 世界。此次發布的 1.5 版本,則是混元世界模型互動能力的關鍵突破。
騰訊混元表示,世界模型 1.5 首度將最完整的即時世界模型框架開源使用,涵蓋資料、訓練、部署等全流程,並採用多項創新技術提升模型效能。
從官方展示的效果來看,只要輸入「廢棄遊樂園,生鏽的摩天輪,雜草叢生,懷舊憂傷」這段描述,模型就能生成精緻度很高、內容豐富的遊戲風格場景,空間內風格統一、元素齊全。
該模型支援生成第一人稱和第三人稱視角場景,能生成多種風格化場景,還支援場景觸發特定效果如冒煙、爆炸等。用戶可透過鍵盤、滑鼠或手把控制虛擬攝影機的移動和轉向。
三大核心能力
混元世界模型 1.5 具備三大核心能力:首先是即時互動生成。模型可以每秒 24 格的速度生成 720P 高畫質影片,讓用戶能即時與虛擬世界互動。
其次是長時間的 3D 一致性。模型能記住先前生成的場景,確保分鐘級影片中的空間結構保持一致,不會出現前後矛盾的畫面。
第三是多樣化互動體驗。模型可適用於不同風格的遊戲或真實場景,支援第一和第三人稱視角,也支援即時文字觸發爆炸、冒煙等特效,以及影片續寫等功能。
採用全新強化學習架構
混元世界模型 1.5 克服前代依賴離線生成、缺乏即時互動的限制,能以每秒 24 格的速度產出流暢影片。該模型使用包含 32 萬個影片片段的訓練資料集,這些資料來自 3A 遊戲、真實世界 3D 場景及自然動態影片。
為兼顧即時生成與系統效能,模型採用記憶管理、動作控制等多項技術優化,確保長時間生成時仍能維持畫面品質和空間一致性。
