人形機(jī)器人研究新突破:LeVERB框架實(shí)現(xiàn)零樣本部署

?? 由 文心大模型 生成的文章摘要

近日,加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的聯(lián)合科研團(tuán)隊(duì)在人形機(jī)器人研究領(lǐng)域取得重大進(jìn)展,推出全新的LeVERB框架。這一創(chuàng)新成果標(biāo)志著人形機(jī)器人在理解復(fù)雜環(huán)境與執(zhí)行語言指令方面邁出關(guān)鍵一步,有望重塑未來機(jī)器人應(yīng)用格局。?

長期以來,實(shí)現(xiàn)人形機(jī)器人在復(fù)雜現(xiàn)實(shí)環(huán)境中的自主靈活操作一直是機(jī)器人領(lǐng)域的“圣杯”。傳統(tǒng)的視覺-語言-動作(Vision-Language-Action,VLA)模型雖在語義理解上表現(xiàn)出色,但大多依賴精心設(shè)計(jì)的低級控制器與特定動作“詞匯表”,這限制了機(jī)器人應(yīng)對動態(tài)、復(fù)雜任務(wù)的能力,尤其在需要全身協(xié)調(diào)的場景中捉襟見肘。?

為填補(bǔ)這一空白,LeVERB框架應(yīng)運(yùn)而生。它首次構(gòu)建了從模擬到現(xiàn)實(shí)的閉環(huán)視覺-語言基準(zhǔn)測試,涵蓋10大類超過150項(xiàng)任務(wù),為評估人形機(jī)器人的全身控制能力提供了全面且嚴(yán)格的標(biāo)準(zhǔn)。在架構(gòu)設(shè)計(jì)上,LeVERB采用分層式指令跟蹤策略:高層通過視覺-語言策略從合成的運(yùn)動學(xué)演示中學(xué)習(xí)潛在動作詞匯,底層則利用強(qiáng)化學(xué)習(xí)訓(xùn)練全身控制策略,將這些潛在指令轉(zhuǎn)化為實(shí)際的動力學(xué)控制命令。?

這種創(chuàng)新設(shè)計(jì)賦予人形機(jī)器人前所未有的零樣本部署能力。在實(shí)驗(yàn)中,LeVERB框架助力機(jī)器人在簡單視覺導(dǎo)航任務(wù)上實(shí)現(xiàn)了高達(dá)80%的成功率,整體任務(wù)成功率達(dá)到58.5%,相較于傳統(tǒng)的分層式全身VLA實(shí)現(xiàn),性能提升了7.8倍。這意味著機(jī)器人在面對全新環(huán)境與任務(wù)時(shí),無需大量現(xiàn)場訓(xùn)練,僅通過對環(huán)境的視覺感知與語言指令的理解,就能迅速規(guī)劃并執(zhí)行全身動作,首次成功打通了視覺語義理解與物理運(yùn)動控制之間的斷層。?

從實(shí)際應(yīng)用來看,LeVERB框架的突破為多領(lǐng)域帶來變革可能。在家庭服務(wù)場景中,機(jī)器人能夠依據(jù)主人的自然語言描述,如“去臥室?guī)臀夷帽緯保珳?zhǔn)定位房間、規(guī)劃路徑并完成取物動作,極大提升生活便利性;工業(yè)制造領(lǐng)域,機(jī)器人可快速理解復(fù)雜裝配指令,靈活調(diào)整全身姿態(tài)完成精細(xì)操作,提高生產(chǎn)效率與質(zhì)量;災(zāi)難救援場景下,能在危險(xiǎn)未知環(huán)境中根據(jù)救援人員指令搜索幸存者、搬運(yùn)重物等,降低救援人員風(fēng)險(xiǎn)。?

科研團(tuán)隊(duì)表示,盡管LeVERB框架已取得顯著進(jìn)展,但這只是邁向通用人形機(jī)器人的重要一步。未來,團(tuán)隊(duì)將聚焦于進(jìn)一步提升機(jī)器人在復(fù)雜動態(tài)環(huán)境中的適應(yīng)性與可靠性,優(yōu)化模型在真實(shí)場景下的泛化能力,推動人形機(jī)器人從實(shí)驗(yàn)室走向廣泛的現(xiàn)實(shí)應(yīng)用,為人類社會發(fā)展注入強(qiáng)大動力。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」