銀河通用發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身FSD大模型TrackVLA

?? 由 文心大模型 生成的文章摘要

6月1日,銀河通用正式發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身FSD大模型——TrackVLA。這一創(chuàng)新性的大模型具備純視覺(jué)環(huán)境感知、語(yǔ)言指令驅(qū)動(dòng)、可自主推理以及零樣本泛化能力,為機(jī)器人領(lǐng)域帶來(lái)了革命性的突破,賦予機(jī)器人“聽(tīng)→看→懂→走”的閉環(huán)運(yùn)動(dòng)能力。目前,TrackVLA已成功搭載于宇樹(shù)機(jī)器狗,化身“二寶保鏢”應(yīng)用于兒童看護(hù)場(chǎng)景,并在未經(jīng)專(zhuān)門(mén)訓(xùn)練的真實(shí)場(chǎng)景中完成了嚴(yán)格的長(zhǎng)程驗(yàn)證。?

TrackVLA是銀河通用推出的一款產(chǎn)品級(jí)導(dǎo)航大模型,基于“視覺(jué)-語(yǔ)言-動(dòng)作”(Vision-Language-Action,VLA)大模型架構(gòu),通過(guò)仿真合成動(dòng)作數(shù)據(jù)進(jìn)行深度訓(xùn)練。其獨(dú)特之處在于,它將傳統(tǒng)機(jī)器人中“指令理解→環(huán)境感知→目標(biāo)識(shí)別→路徑規(guī)劃”等多個(gè)獨(dú)立處理的子任務(wù),整合在一個(gè)統(tǒng)一的端到端模型中完成。這使得機(jī)器人無(wú)需提前對(duì)工作環(huán)境進(jìn)行地圖構(gòu)建,也不依賴(lài)遠(yuǎn)程操控,僅憑借接收到的語(yǔ)言指令和視覺(jué)感知,就能直接推理并規(guī)劃出行動(dòng)路徑。?

TrackVLA擁有強(qiáng)大的自然語(yǔ)言理解能力,用戶(hù)只需下達(dá)簡(jiǎn)單指令,如“跟著媽媽”,模型便能迅速理解指令含義,并精準(zhǔn)識(shí)別出對(duì)應(yīng)的目標(biāo)人物。不僅如此,當(dāng)用戶(hù)發(fā)出新指令,例如“換成跟孩子”,它也能立即做出響應(yīng),快速切換跟隨目標(biāo),整個(gè)過(guò)程流暢且準(zhǔn)確。?

在人流如織的購(gòu)物中心等復(fù)雜場(chǎng)景中,環(huán)境復(fù)雜多變,人群中可能存在多個(gè)穿著相似的人。但TrackVLA憑借卓越的空間理解和視覺(jué)記憶機(jī)制,能夠準(zhǔn)確無(wú)誤地識(shí)別出原始目標(biāo),并實(shí)現(xiàn)長(zhǎng)時(shí)間自主跟隨,有效避免了因目標(biāo)外觀相似或環(huán)境干擾而導(dǎo)致的跟丟現(xiàn)象。?

一旦目標(biāo)暫時(shí)走出機(jī)器人的視野范圍,TrackVLA不會(huì)陷入停滯。它會(huì)利用實(shí)時(shí)空間智能和大模型強(qiáng)大的推理能力,對(duì)目標(biāo)之前的運(yùn)動(dòng)軌跡進(jìn)行分析,從而預(yù)測(cè)出目標(biāo)可能出現(xiàn)的大致位置,并重新規(guī)劃行動(dòng)軌跡,快速找回目標(biāo)。?

與傳統(tǒng)依賴(lài)建圖的機(jī)器人導(dǎo)航方式不同,TrackVLA僅依靠純視覺(jué)輸入來(lái)理解周?chē)h(huán)境。這一特性使其具備強(qiáng)大的環(huán)境適應(yīng)性,無(wú)需在新環(huán)境中進(jìn)行額外的數(shù)據(jù)采集與訓(xùn)練,便能直接部署在諸如陌生商場(chǎng)、電梯、兒童游樂(lè)區(qū)等各種復(fù)雜環(huán)境中,實(shí)現(xiàn)長(zhǎng)時(shí)間穩(wěn)定的自主跟隨任務(wù)。?

在兒童游樂(lè)區(qū)、狹窄通道等復(fù)雜場(chǎng)景中,TrackVLA能夠?qū)崟r(shí)識(shí)別出各類(lèi)障礙物,包括玩耍的兒童、隨意擺放的玩具、地面上的水漬等。同時(shí),它會(huì)對(duì)可通行區(qū)域進(jìn)行精準(zhǔn)分析,并結(jié)合自身的本體能力,自主推理出最為合理的行動(dòng)路線(xiàn),靈活巧妙地避開(kāi)障礙物,確保行動(dòng)的安全與高效。?

目前,TrackVLA已成功搭載于宇樹(shù)機(jī)器狗,化身“二寶保鏢”,在兒童看護(hù)場(chǎng)景中發(fā)揮著重要作用。在實(shí)際的長(zhǎng)程驗(yàn)證中,機(jī)器狗展現(xiàn)出了一系列令人矚目的功能。?

在超市場(chǎng)景中,機(jī)器狗能夠自如地穿梭于密集的人流和貨架之間,緊緊跟隨帶著孩子的母親。它不僅能夠準(zhǔn)確識(shí)別“媽媽”和“孩子”兩個(gè)目標(biāo),還能根據(jù)語(yǔ)音指令靈活切換跟隨對(duì)象。當(dāng)孩子在玩耍過(guò)程中出現(xiàn)亂跑等行為時(shí),機(jī)器狗會(huì)及時(shí)發(fā)出提醒,確保孩子的安全。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」