具身智能即將爆發!王興興:未來兩年見真章 達到「這件事」就能稱王
鉅亨網新聞中心
宇樹科技創辦人兼董事長王興興 5 日在第八屆虹橋國際經濟論壇人形機器人創新發展合作論壇上做出前瞻性預測,指出具身智能(Embodied AI)即將迎來關鍵的「ChatGPT 時刻」。
王興興表示,誰能在未來一兩年內實現「在 80% 的陌生場景中完成 80% 任務」的突破,誰就是全球最領先的具身智能。
王興興解釋,這項突破的意義在於機器人能真正從預訓練的環境中解放出來,在完全未知的場景下,僅憑自然語言指令就能達到約 80% 的任務成功率。
他舉例說明:「比如到明年這個時候,隨便一台人形機器人到會場,你跟它交代任務,比如說『幫我拿一杯水』或者給某位記者朋友拿一份東西過去,它可以直接過去把這個任務完成。這個場景完全沒有預訓練過。」
雖然對前景保持樂觀,但王興興也坦言,目前人形機器人(包括具身智能)的發展仍面臨挑戰。
他認為,機器人大模型(具身智能模型)的進展速度「稍微有點慢了」。他將具身機器人目前的發展階段類比為 ChatGPT 發表前的 1 至 3 年,方向已明,但尚未達到突破臨界點的程度。
他觀察到,深度強化學習在全身運控方面進步顯著,但在實現「端到端能幹活」的具身大模型方面,技術推進則相對緩慢。
針對如何加速邁向「ChatGPT 時刻」,王興興強調,需要在模型架構上持續創新,以克服當前泛化能力不足的問題。同時,也需要收集更大規模、更高品質的數據。他指出,模型和數據的發展需要「相輔相成」,避免一股腦盲目採集大量數據或僅將模型做大。
在目前主流模型選擇上,王興興表示,他更看好基於視頻生成的世界模型,而非泛化能力相對較弱的 VLA(視訊語言動作)+RL(強化學習)模型。不過,他也提醒,世界模型對算力需求極大,這可能成為中小型人形機器人公司的主要障礙,使大型 AI 公司和互聯網公司更具優勢。