Figure AI 在與 OpenAI 終止合作后,果然發(fā)布了大新聞,這家人形機(jī)器人公司從外接大模型的方式,轉(zhuǎn)入本地具身大模型來完成機(jī)器人的感知、交互與操作,充分展現(xiàn)了本體具身大模型與外接互聯(lián)網(wǎng)大模型的優(yōu)勢。
根據(jù) Figure AI 有限的技術(shù)分享,他最新推出的 Helix 系統(tǒng)是基于視覺-語言-行動(VLA)端到端整體架構(gòu)演進(jìn)的一套快慢系統(tǒng)。
借助 Helix,Figure AI 將端到端 VLA 模型運(yùn)行到自家的雙足人形機(jī)器人 Figure 02 上,實(shí)現(xiàn)了面向場景任務(wù)的泛化性。
在 Figure AI 官方展示視頻中,機(jī)器人一邊用頭部追蹤手部,一邊調(diào)整軀干姿勢,同時能夠精確抓取物體。
這種多自由度協(xié)調(diào)在高維動作空間中極具挑戰(zhàn)性,而 Helix 可以做到完美平衡。
究其本質(zhì),Helix 是一個能夠?qū)φ麄€人形上身(包括手腕、軀干、頭部和各個手指)進(jìn)行高速率連續(xù)控制的 VLA 模型,作為 Figure AI 的超級大腦,它完成了所有事情:
像人類一樣用眼睛觀察、用耳朵聽、用手操作,并在沒有特別訓(xùn)練的情況下完成全新的任務(wù),有精準(zhǔn)的控制能力。
這在視頻中得到了充分展現(xiàn):Helix 驅(qū)動的機(jī)器人成功抓取數(shù)千種新物體,僅需一句「拿起 [X]」,當(dāng)指令為「拿起沙漠物品」時,它能識別玩具仙人掌并完成抓取。
「Helix 表現(xiàn)出了強(qiáng)大的物體泛化能力,只需用自然語言詢問,就能撿起數(shù)千種形狀、大小、顏色與材料特性各異的新奇家居用品,而這些物品在此前的訓(xùn)練中從未見過。」Figure AI 的創(chuàng)始人兼 CEO 布雷特·艾德考克認(rèn)為。
Figure AI 此番高舉高打的端到端 VLA 架構(gòu),實(shí)際在硅谷也是非常新的技術(shù)。
伯克利機(jī)器人行業(yè)的頂級團(tuán)隊(duì)創(chuàng)辦的 PI,在 2024 年 6 月、10 月分別發(fā)表了 OpenVLA、PI-0,奠定了端到端 VLA 的圣杯標(biāo)準(zhǔn),當(dāng)時獲得極大反響。
但這個技術(shù)不只是硅谷頂級團(tuán)隊(duì)的專利,中國科研力量也在端到端 VLA 舞臺上展露過實(shí)力。
2024 年 6 月,比 PI 早發(fā)表的,針對操作機(jī)器人的 RoboMamba 端到端具身大模型,由北大,智平方等合力推出。
這一模型不僅比 PI 的 OpenVLA 更早公開應(yīng)用,還在未見任務(wù)(Unseen Task)的泛化能力上顯著超越 Google 的 RT 系列模型,進(jìn)一步鞏固了中國在大模型原創(chuàng)力上的國際聲譽(yù)。
這是業(yè)界能看到的,唯一初創(chuàng)公司參與的端到端 VLA 工作被國際專家認(rèn)可。
圖注:圖源 RoboMamba 論文
圖注:論文介紹了一個名為 RoboMamba 的多模態(tài)狀態(tài)空間模型,旨在提高機(jī)器人的推理和操作能力,同時保持高效的微調(diào)和推理
論文創(chuàng)新性地將視覺編碼器與高效的 Mamba 語言模型集成,構(gòu)建了全新的端到端機(jī)器人多模態(tài)大模型。
端到端的背后,是對量產(chǎn)的深入理解。在場景多變的情況下,如何用數(shù)據(jù)驅(qū)動的方式完成系統(tǒng)升級迭代,如何對數(shù)據(jù),模型結(jié)構(gòu),訓(xùn)練方法實(shí)現(xiàn)系統(tǒng)級別 AI 突破。這些關(guān)鍵問題困住了大量具身智能領(lǐng)域的入局者。
小鵬、OPPO前首席科學(xué)家,微軟總部研究員,國家級創(chuàng)新領(lǐng)軍人才郭彥東,是首次提出端到端 VLA 架構(gòu)的人,這來自于他在產(chǎn)業(yè)、行業(yè)多年的深耕積累,以及他在 AI 原創(chuàng)領(lǐng)域的硬核研發(fā)能力。依托技術(shù)的先發(fā)布局,和大量人工智能軟硬一體化結(jié)合的量產(chǎn)經(jīng)驗(yàn),幫助智平方率先做到了這一點(diǎn),成為國內(nèi)最早進(jìn)行真正商業(yè)落地的通用智能機(jī)器人公司。
本質(zhì)上,能做好 VLA 端到端的公司具備對大模型前沿技術(shù)的硬核創(chuàng)新能力,其間的點(diǎn)滴積累如能應(yīng)用到整個 AI+硬件行業(yè),會成為極具價值的存在。
免責(zé)聲明:市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
標(biāo)簽: