銀河通用發(fā)布全球首個產(chǎn)品級端到端具身FSD大模型TrackVLA

William — Sun, 01 Jun 2025 16:17:31 +0000

6月1日，銀河通用正式發(fā)布全球首個產(chǎn)品級端到端具身FSD大模型——TrackVLA。這一創(chuàng)新性的大模型具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理以及零樣本泛化能力，為機(jī)器人領(lǐng)域帶來了革命性的突破，賦予機(jī)器人“聽→看→懂→走”的閉環(huán)運(yùn)動能力。目前，TrackVLA已成功搭載于宇樹機(jī)器狗，化身“二寶保鏢”應(yīng)用于兒童看護(hù)場景，并在未經(jīng)專門訓(xùn)練的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證。?

TrackVLA是銀河通用推出的一款產(chǎn)品級導(dǎo)航大模型，基于“視覺-語言-動作”（Vision-Language-Action,VLA）大模型架構(gòu)，通過仿真合成動作數(shù)據(jù)進(jìn)行深度訓(xùn)練。其獨(dú)特之處在于，它將傳統(tǒng)機(jī)器人中“指令理解→環(huán)境感知→目標(biāo)識別→路徑規(guī)劃”等多個獨(dú)立處理的子任務(wù)，整合在一個統(tǒng)一的端到端模型中完成。這使得機(jī)器人無需提前對工作環(huán)境進(jìn)行地圖構(gòu)建，也不依賴遠(yuǎn)程操控，僅憑借接收到的語言指令和視覺感知，就能直接推理并規(guī)劃出行動路徑。?

TrackVLA擁有強(qiáng)大的自然語言理解能力，用戶只需下達(dá)簡單指令，如“跟著媽媽”，模型便能迅速理解指令含義，并精準(zhǔn)識別出對應(yīng)的目標(biāo)人物。不僅如此，當(dāng)用戶發(fā)出新指令，例如“換成跟孩子”，它也能立即做出響應(yīng)，快速切換跟隨目標(biāo)，整個過程流暢且準(zhǔn)確。?

在人流如織的購物中心等復(fù)雜場景中，環(huán)境復(fù)雜多變，人群中可能存在多個穿著相似的人。但TrackVLA憑借卓越的空間理解和視覺記憶機(jī)制，能夠準(zhǔn)確無誤地識別出原始目標(biāo)，并實(shí)現(xiàn)長時間自主跟隨，有效避免了因目標(biāo)外觀相似或環(huán)境干擾而導(dǎo)致的跟丟現(xiàn)象。?

一旦目標(biāo)暫時走出機(jī)器人的視野范圍，TrackVLA不會陷入停滯。它會利用實(shí)時空間智能和大模型強(qiáng)大的推理能力，對目標(biāo)之前的運(yùn)動軌跡進(jìn)行分析，從而預(yù)測出目標(biāo)可能出現(xiàn)的大致位置，并重新規(guī)劃行動軌跡，快速找回目標(biāo)。?

與傳統(tǒng)依賴建圖的機(jī)器人導(dǎo)航方式不同，TrackVLA僅依靠純視覺輸入來理解周圍環(huán)境。這一特性使其具備強(qiáng)大的環(huán)境適應(yīng)性，無需在新環(huán)境中進(jìn)行額外的數(shù)據(jù)采集與訓(xùn)練，便能直接部署在諸如陌生商場、電梯、兒童游樂區(qū)等各種復(fù)雜環(huán)境中，實(shí)現(xiàn)長時間穩(wěn)定的自主跟隨任務(wù)。?

在兒童游樂區(qū)、狹窄通道等復(fù)雜場景中，TrackVLA能夠?qū)崟r識別出各類障礙物，包括玩耍的兒童、隨意擺放的玩具、地面上的水漬等。同時，它會對可通行區(qū)域進(jìn)行精準(zhǔn)分析，并結(jié)合自身的本體能力，自主推理出最為合理的行動路線，靈活巧妙地避開障礙物，確保行動的安全與高效。?

目前，TrackVLA已成功搭載于宇樹機(jī)器狗，化身“二寶保鏢”，在兒童看護(hù)場景中發(fā)揮著重要作用。在實(shí)際的長程驗(yàn)證中，機(jī)器狗展現(xiàn)出了一系列令人矚目的功能。?

在超市場景中，機(jī)器狗能夠自如地穿梭于密集的人流和貨架之間，緊緊跟隨帶著孩子的母親。它不僅能夠準(zhǔn)確識別“媽媽”和“孩子”兩個目標(biāo)，還能根據(jù)語音指令靈活切換跟隨對象。當(dāng)孩子在玩耍過程中出現(xiàn)亂跑等行為時，機(jī)器狗會及時發(fā)出提醒，確保孩子的安全。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

性xx色动画xx无尽,又大又粗又爽a级毛片免费看,中文乱码字幕高清一区二区

銀河通用發(fā)布全球首個產(chǎn)品級端到端具身FSD大模型TrackVLA