人形機器人研究新突破:LeVERB框架實現(xiàn)零樣本部署

?? 由 文心大模型 生成的文章摘要

近日,加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)等機構(gòu)的聯(lián)合科研團隊在人形機器人研究領(lǐng)域取得重大進展,推出全新的LeVERB框架。這一創(chuàng)新成果標志著人形機器人在理解復(fù)雜環(huán)境與執(zhí)行語言指令方面邁出關(guān)鍵一步,有望重塑未來機器人應(yīng)用格局。?

長期以來,實現(xiàn)人形機器人在復(fù)雜現(xiàn)實環(huán)境中的自主靈活操作一直是機器人領(lǐng)域的“圣杯”。傳統(tǒng)的視覺-語言-動作(Vision-Language-Action,VLA)模型雖在語義理解上表現(xiàn)出色,但大多依賴精心設(shè)計的低級控制器與特定動作“詞匯表”,這限制了機器人應(yīng)對動態(tài)、復(fù)雜任務(wù)的能力,尤其在需要全身協(xié)調(diào)的場景中捉襟見肘。?

為填補這一空白,LeVERB框架應(yīng)運而生。它首次構(gòu)建了從模擬到現(xiàn)實的閉環(huán)視覺-語言基準測試,涵蓋10大類超過150項任務(wù),為評估人形機器人的全身控制能力提供了全面且嚴格的標準。在架構(gòu)設(shè)計上,LeVERB采用分層式指令跟蹤策略:高層通過視覺-語言策略從合成的運動學(xué)演示中學(xué)習(xí)潛在動作詞匯,底層則利用強化學(xué)習(xí)訓(xùn)練全身控制策略,將這些潛在指令轉(zhuǎn)化為實際的動力學(xué)控制命令。?

這種創(chuàng)新設(shè)計賦予人形機器人前所未有的零樣本部署能力。在實驗中,LeVERB框架助力機器人在簡單視覺導(dǎo)航任務(wù)上實現(xiàn)了高達80%的成功率,整體任務(wù)成功率達到58.5%,相較于傳統(tǒng)的分層式全身VLA實現(xiàn),性能提升了7.8倍。這意味著機器人在面對全新環(huán)境與任務(wù)時,無需大量現(xiàn)場訓(xùn)練,僅通過對環(huán)境的視覺感知與語言指令的理解,就能迅速規(guī)劃并執(zhí)行全身動作,首次成功打通了視覺語義理解與物理運動控制之間的斷層。?

從實際應(yīng)用來看,LeVERB框架的突破為多領(lǐng)域帶來變革可能。在家庭服務(wù)場景中,機器人能夠依據(jù)主人的自然語言描述,如“去臥室?guī)臀夷帽緯保珳识ㄎ环块g、規(guī)劃路徑并完成取物動作,極大提升生活便利性;工業(yè)制造領(lǐng)域,機器人可快速理解復(fù)雜裝配指令,靈活調(diào)整全身姿態(tài)完成精細操作,提高生產(chǎn)效率與質(zhì)量;災(zāi)難救援場景下,能在危險未知環(huán)境中根據(jù)救援人員指令搜索幸存者、搬運重物等,降低救援人員風(fēng)險。?

科研團隊表示,盡管LeVERB框架已取得顯著進展,但這只是邁向通用人形機器人的重要一步。未來,團隊將聚焦于進一步提升機器人在復(fù)雜動態(tài)環(huán)境中的適應(yīng)性與可靠性,優(yōu)化模型在真實場景下的泛化能力,推動人形機器人從實驗室走向廣泛的現(xiàn)實應(yīng)用,為人類社會發(fā)展注入強大動力。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」