
5月7日,北京星動(dòng)紀(jì)元科技有限公司宣布開(kāi)源首個(gè)AIGC(生成式人工智能)機(jī)器人大模型。這一突破性成果有望加速人形機(jī)器人的商業(yè)化落地,為全球機(jī)器人領(lǐng)域帶來(lái)新的發(fā)展動(dòng)力。?
此次開(kāi)源的VPP(Video Prediction Policy)模型,由清華大學(xué)交叉信息院ISRLab和星動(dòng)紀(jì)元聯(lián)合研發(fā),其技術(shù)論文已入選國(guó)際機(jī)器學(xué)習(xí)大會(huì)ICML2025 Spotlight。該會(huì)議是機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,今年的 Spotlight 論文中稿率不到2.6%,VPP能夠入選,足以證明其在技術(shù)上的創(chuàng)新性和領(lǐng)先性。
VPP模型將視頻擴(kuò)散模型的泛化能力引入通用機(jī)器人操作策略,有效解決了 diffusion 推理速度的難題,實(shí)現(xiàn)了機(jī)器人對(duì)未來(lái)場(chǎng)景的實(shí)時(shí)預(yù)測(cè)與動(dòng)作執(zhí)行,大幅提升了策略泛化性。傳統(tǒng)的機(jī)器人模型往往依賴大量高質(zhì)量的真機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)獲取成本高且效率低。而VPP模型另辟蹊徑,通過(guò)利用海量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練,直接學(xué)習(xí)人類動(dòng)作,大大降低了對(duì)真機(jī)數(shù)據(jù)的依賴程度。這意味著機(jī)器人能夠以更低的成本、更快的速度學(xué)習(xí)到豐富多樣的操作技能,并且可以在不同人形機(jī)器人本體之間靈活切換,為機(jī)器人的廣泛應(yīng)用提供了可能。?
在技術(shù)創(chuàng)新方面,VPP模型采用了兩階段學(xué)習(xí)框架。第一階段,利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測(cè)性視覺(jué)表征,讓機(jī)器人能夠“看懂”未來(lái)的場(chǎng)景,提前做好行動(dòng)規(guī)劃;第二階段,通過(guò) Video Former和DiT擴(kuò)散策略進(jìn)行動(dòng)作學(xué)習(xí),將視覺(jué)信息轉(zhuǎn)化為具體的動(dòng)作指令。這種創(chuàng)新的架構(gòu)設(shè)計(jì)使得VPP模型能夠提前預(yù)知未來(lái)場(chǎng)景,讓機(jī)器人仿佛 “看著答案” 行動(dòng),顯著增強(qiáng)了其在復(fù)雜環(huán)境中的泛化能力。經(jīng)過(guò)測(cè)試,VPP模型的視頻預(yù)測(cè)結(jié)果與機(jī)器人實(shí)際物理執(zhí)行結(jié)果幾乎一致,展現(xiàn)出極高的準(zhǔn)確性和可靠性。?
同時(shí),星動(dòng)紀(jì)元研究團(tuán)隊(duì)還通過(guò)優(yōu)化模型,實(shí)現(xiàn)了高頻預(yù)測(cè)和執(zhí)行。研究發(fā)現(xiàn),通過(guò)有效提取視頻模型中間層的表征,單步去噪預(yù)測(cè)就能蘊(yùn)含大量未來(lái)信息,這使得模型預(yù)測(cè)時(shí)間小于 150ms,預(yù)測(cè)頻率約6 – 10hz,控制頻率超過(guò)50Hz。相比只能學(xué)習(xí)不同維度低維度action信息的VLA模型,VPP模型可以直接學(xué)習(xí)各種形態(tài)機(jī)器人的視頻數(shù)據(jù),不存在維度適配問(wèn)題,并且能夠直接學(xué)習(xí)人類操作數(shù)據(jù),進(jìn)一步降低了數(shù)據(jù)獲取成本,提高了模型泛化能力。








