
北京人形機(jī)器人創(chuàng)新中心的技術(shù)突破引發(fā)全球科技界震動(dòng)——全新具身世界模型WoW正式開源,這一被Huggingface官方盛贊”Excellentwork”的架構(gòu),首次實(shí)現(xiàn)機(jī)器人對物理世界的深度理解,標(biāo)志我國在具身智能領(lǐng)域躋身世界前列。?
“讓機(jī)器人完成后空翻不難,難的是讓它理解水杯倒地會(huì)灑水。”行業(yè)專家的比喻道出核心痛點(diǎn)。相較于僅能”觀察”的Sora系列,WoW構(gòu)建了感知、預(yù)測、判斷、反思與行動(dòng)的完整閉環(huán),通過融合視覺、動(dòng)作與物理推理的統(tǒng)一框架,實(shí)現(xiàn)從”看見”到”理解”的本質(zhì)跨越。正如技術(shù)界評價(jià):”GPT讓機(jī)器讀懂語言,Sora讓機(jī)器看見世界,而WoW給了機(jī)器理解物理規(guī)律的’大腦'”。?
WoW的突破性源于四大核心組件的協(xié)同創(chuàng)新,共同構(gòu)筑起機(jī)器的”物理認(rèn)知體系”:
?
DiT世界生成基座:機(jī)器人的”物理引擎+想象系統(tǒng)”?
基于800萬條交互軌跡篩選出的200萬條高質(zhì)量數(shù)據(jù),該模型訓(xùn)練出1.3B至14B參數(shù)的全系列版本,能精準(zhǔn)推演物理演化規(guī)律。實(shí)測中,它可生成”機(jī)械臂依次按按鈕、收餐具、開開關(guān)”的長程任務(wù)視頻,甚至能跨場景完成”從梵高畫作中取出向日葵”的創(chuàng)意操作,證明其掌握的是物理規(guī)律的抽象本質(zhì)而非簡單場景記憶。
?
SOPHIA自反范式:讓模型”自己教自己”?
業(yè)內(nèi)首創(chuàng)的”生成-批評-修正”循環(huán)機(jī)制,模擬人類認(rèn)知過程:動(dòng)態(tài)評論模型先判斷生成內(nèi)容的物理合理性,優(yōu)化智能體再據(jù)此改寫指令、迭代生成。這種自我反思能力,使WoW在復(fù)雜場景中越練越精準(zhǔn),如同機(jī)器人擁有了”試錯(cuò)糾錯(cuò)”的自學(xué)能力。?
FM-IDM逆動(dòng)力學(xué)模型:從”想象”到”行動(dòng)”的橋梁?
這一核心組件解決了”落地難題”——通過連續(xù)兩幀預(yù)測視頻,可反推出機(jī)器人末端執(zhí)行器的精確動(dòng)作指令,誤差不足2°。優(yōu)必選WalkerX機(jī)器人借助該技術(shù),將樓梯跌倒率降低63%;中小廠商只需上傳一段”咖啡拉花”視頻,就能讓機(jī)械臂自動(dòng)學(xué)會(huì)對應(yīng)技能,數(shù)據(jù)成本銳減99%。?
WoWBench基準(zhǔn):給”想象力”立規(guī)矩?
作為全球首個(gè)具身世界模型評測標(biāo)準(zhǔn),該基準(zhǔn)從感知理解、預(yù)測推理等四大維度建立量化指標(biāo),通過”專家模型+GPT+人類評審”的混合機(jī)制,讓機(jī)器的物理認(rèn)知能力有了可衡量的科學(xué)尺度。








