Figure展示旗下人形機器人性能：能辨識、能對話、能思考

3 月 14 日，美國明星機器人新創公司 Figure 發表了第一個 OpenAI 大模型加持的機器人 demo。雖然只用到了一個神經網絡，但卻可以聽從人類的命令，遞給人類蘋果、將黑色塑膠袋收拾進框子裡、將杯子和盤子歸置放在瀝水架上。

Figure 指出，它的 Figure 01 機器人接受了 OpenAI 模型的訓練，使其能夠同時執行家務。更重要的是，它可以在執行任務時與人類互動，這使得它們比以前的機器人更為實用。

執行長 Brett Adcock 在 X 平台上發文稱：「Figure 的機載攝影機會輸入由 OpenAI 訓練的大型視覺語言模型 (VLM)。」

該公司尚未具體說明 VLM 是 OpenAI 最新大型語言模式 GPT-4 的一個版本，還是完全不同的版本。

Adcock 發布了示範影片，並表示，「正如你從影片中看到的，機器人的速度有了顯著的提高，我們開始接近人類的速度。」他表示，公司的的目標是訓練一個世界模型，來操作十億個級別的人形機器人。

這家公司不久前剛宣布獲得 OpenAI 等公司的投資，才十幾天就直接用上了 OpenAI 的多模態大模型。

Figure 機器人操作資深 AI 工程師 Corey Lynch 介紹了此次 Figure 01 的技術原理。他表示，Figure 01 現在可以做到以下這些：描述其視覺經驗、規劃未來的行動、反思自己的記憶、口頭解釋推理過程。

他接著解釋稱，影片中機器人的所有行為都是學到的 (再次強調不是遠端操作)，並以正常速度 (1.0x) 運作。

此外，該模型負責決定在機器人上運行哪些學習到的閉環行為以完成給定的命令，從而將特定的神經網路權重加載到 GPU 上並執行策略。

關於學習到的低階雙手操作，所有行為均由神經網路視覺運動 transformer 策略驅動，將像素直接對應到動作。這些網路以 10hz 的頻率接收機載影像，並以 200hz 的頻率產生 24-DOF 動作 (手腕姿勢和手指關節角度)。

最後他表示，即使在幾年前，自己還認為人形機器人規劃和執行自身完全學得行為的同時與人類進行完整的對話是幾十年後才能看到的事情。顯然，現在已經發生太多變化了。

根據此前報導，Figure AI 已獲得來自微軟、輝達、OpenAI 以及亞馬遜創辦人貝佐斯等投資人約 6.75 億美元的新一輪融資。這是該公司繼去年上半年獲得首輪 7000 萬美元外部融資之後宣布的最新融資動態，這也使得該公司的估值達到 26 億美元左右。

Figure AI 表示，將利用這筆新的融資資金加速其人形機器人的開發，以投入商業用途。

相關貼文