
在機(jī)器人技術(shù)領(lǐng)域不斷追求創(chuàng)新與突破的征程中,智元機(jī)器人于近日正式宣布推出行業(yè)首個(gè)機(jī)器人世界模型開(kāi)源平臺(tái)——Genie Envisioner(GE),這一具有里程碑意義的舉措為機(jī)器人智能發(fā)展開(kāi)辟了嶄新的道路。?
傳統(tǒng)機(jī)器人學(xué)習(xí)系統(tǒng)大多遵循“數(shù)據(jù)—訓(xùn)練—評(píng)估”相互獨(dú)立的流水線模式,各個(gè)環(huán)節(jié)之間缺乏緊密協(xié)作,需要專門的基礎(chǔ)設(shè)施與針對(duì)特定任務(wù)的復(fù)雜調(diào)優(yōu)。這種碎片化架構(gòu)不僅極大地增加了開(kāi)發(fā)難度,延長(zhǎng)了研發(fā)周期,還嚴(yán)重制約了系統(tǒng)的可擴(kuò)展性,阻礙了機(jī)器人在復(fù)雜多變環(huán)境中的高效應(yīng)用。?
而Genie Envisioner平臺(tái)的出現(xiàn),徹底打破了這一傳統(tǒng)桎梏。它創(chuàng)新性地構(gòu)建起以統(tǒng)一視頻生成世界模型為核心的閉環(huán)架構(gòu),首次成功將未來(lái)幀預(yù)測(cè)、策略學(xué)習(xí)與仿真評(píng)估三大關(guān)鍵功能深度整合,讓機(jī)器人得以在同一世界模型中順暢無(wú)阻地完成從敏銳感知環(huán)境信息,到深入思考決策,再到精準(zhǔn)執(zhí)行動(dòng)作的端到端全流程推理與操作。?
為打造這一強(qiáng)大的平臺(tái),智元機(jī)器人團(tuán)隊(duì)投入了大量的精力與資源,精心收集整理了約3000小時(shí)的真實(shí)機(jī)器人操控視頻數(shù)據(jù)。這些珍貴的數(shù)據(jù)成為了GE平臺(tái)堅(jiān)實(shí)的基石,助力平臺(tái)建立起從語(yǔ)言指令到視覺(jué)空間的直接映射橋梁,完整且精準(zhǔn)地保留了機(jī)器人在與環(huán)境交互過(guò)程中所產(chǎn)生的全部時(shí)空信息,為機(jī)器人能夠精準(zhǔn)理解任務(wù)指令、靈活應(yīng)對(duì)復(fù)雜場(chǎng)景提供了有力支撐。?
GE平臺(tái)主要由三大核心組件構(gòu)成,它們緊密協(xié)作,共同鑄就了平臺(tái)強(qiáng)大的功能。GE-Base作為整個(gè)平臺(tái)的核心基礎(chǔ),采用自回歸視頻生成框架,將輸出巧妙分割為離散的視頻塊,每個(gè)視頻塊包含N幀。該組件具備多視角生成能力與稀疏記憶機(jī)制兩大關(guān)鍵創(chuàng)新點(diǎn),通過(guò)同時(shí)處理來(lái)自頭部相機(jī)和雙臂腕部相機(jī)的三路視角輸入,能夠完美保持空間一致性,全方位捕捉完整的操控場(chǎng)景;稀疏記憶機(jī)制則通過(guò)隨機(jī)采樣歷史幀,顯著增強(qiáng)了長(zhǎng)時(shí)序推理能力,使得模型在處理長(zhǎng)達(dá)數(shù)分鐘的操控任務(wù)時(shí),依然能夠有條不紊地保持時(shí)序連貫性。
GE-Base的訓(xùn)練采用兩階段策略,首先在3-30Hz的多分辨率采樣下進(jìn)行時(shí)序適應(yīng)訓(xùn)練,使其對(duì)不同運(yùn)動(dòng)速度具備強(qiáng)大的魯棒性;隨后在5Hz固定采樣率下進(jìn)行策略對(duì)齊微調(diào),與下游動(dòng)作建模的時(shí)序抽象完美契合。整個(gè)訓(xùn)練過(guò)程基于AgiBot-World-Beta數(shù)據(jù)集的約3000小時(shí)、超100萬(wàn)條真機(jī)數(shù)據(jù),借助32塊A100GPU經(jīng)過(guò)約10天的艱苦運(yùn)算才得以完成。?








