6月1日,銀河通用正式發(fā)布全球首個產(chǎn)品級端到端具身FSD大模型——TrackVLA。這一創(chuàng)新性的大模型具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理以及零樣本泛化能力,為機(jī)器人領(lǐng)域帶來了革命性的突破,賦予機(jī)器人“聽→看→懂→走”的閉環(huán)運(yùn)動能力。目前,TrackVLA已成功搭載于宇樹機(jī)器狗,化身“二寶保鏢”應(yīng)用于兒童看護(hù)場景,并在未經(jīng)專門訓(xùn)練的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證。?
TrackVLA是銀河通用推出的一款產(chǎn)品級導(dǎo)航大模型,基于“視覺-語言-動作”(Vision-Language-Action,VLA)大模型架構(gòu),通過仿真合成動作數(shù)據(jù)進(jìn)行深度訓(xùn)練。其獨(dú)特之處在于,它將傳統(tǒng)機(jī)器人中“指令理解→環(huán)境感知→目標(biāo)識別→路徑規(guī)劃”等多個獨(dú)立處理的子任務(wù),整合在一個統(tǒng)一的端到端模型中完成。這使得機(jī)器人無需提前對工作環(huán)境進(jìn)行地圖構(gòu)建,也不依賴遠(yuǎn)程操控,僅憑借接收到的語言指令和視覺感知,就能直接推理并規(guī)劃出行動路徑。?
TrackVLA擁有強(qiáng)大的自然語言理解能力,用戶只需下達(dá)簡單指令,如“跟著媽媽”,模型便能迅速理解指令含義,并精準(zhǔn)識別出對應(yīng)的目標(biāo)人物。不僅如此,當(dāng)用戶發(fā)出新指令,例如“換成跟孩子”,它也能立即做出響應(yīng),快速切換跟隨目標(biāo),整個過程流暢且準(zhǔn)確。?
在人流如織的購物中心等復(fù)雜場景中,環(huán)境復(fù)雜多變,人群中可能存在多個穿著相似的人。但TrackVLA憑借卓越的空間理解和視覺記憶機(jī)制,能夠準(zhǔn)確無誤地識別出原始目標(biāo),并實(shí)現(xiàn)長時間自主跟隨,有效避免了因目標(biāo)外觀相似或環(huán)境干擾而導(dǎo)致的跟丟現(xiàn)象。?
一旦目標(biāo)暫時走出機(jī)器人的視野范圍,TrackVLA不會陷入停滯。它會利用實(shí)時空間智能和大模型強(qiáng)大的推理能力,對目標(biāo)之前的運(yùn)動軌跡進(jìn)行分析,從而預(yù)測出目標(biāo)可能出現(xiàn)的大致位置,并重新規(guī)劃行動軌跡,快速找回目標(biāo)。?
與傳統(tǒng)依賴建圖的機(jī)器人導(dǎo)航方式不同,TrackVLA僅依靠純視覺輸入來理解周圍環(huán)境。這一特性使其具備強(qiáng)大的環(huán)境適應(yīng)性,無需在新環(huán)境中進(jìn)行額外的數(shù)據(jù)采集與訓(xùn)練,便能直接部署在諸如陌生商場、電梯、兒童游樂區(qū)等各種復(fù)雜環(huán)境中,實(shí)現(xiàn)長時間穩(wěn)定的自主跟隨任務(wù)。?
在兒童游樂區(qū)、狹窄通道等復(fù)雜場景中,TrackVLA能夠?qū)崟r識別出各類障礙物,包括玩耍的兒童、隨意擺放的玩具、地面上的水漬等。同時,它會對可通行區(qū)域進(jìn)行精準(zhǔn)分析,并結(jié)合自身的本體能力,自主推理出最為合理的行動路線,靈活巧妙地避開障礙物,確保行動的安全與高效。?
目前,TrackVLA已成功搭載于宇樹機(jī)器狗,化身“二寶保鏢”,在兒童看護(hù)場景中發(fā)揮著重要作用。在實(shí)際的長程驗(yàn)證中,機(jī)器狗展現(xiàn)出了一系列令人矚目的功能。?
在超市場景中,機(jī)器狗能夠自如地穿梭于密集的人流和貨架之間,緊緊跟隨帶著孩子的母親。它不僅能夠準(zhǔn)確識別“媽媽”和“孩子”兩個目標(biāo),還能根據(jù)語音指令靈活切換跟隨對象。當(dāng)孩子在玩耍過程中出現(xiàn)亂跑等行為時,機(jī)器狗會及時發(fā)出提醒,確保孩子的安全。