
谷歌DeepMind正式推出GeminiRobotics 1.5系列模型,以GeminiRobotics 1.5與GeminiRobotics-ER 1.5兩款核心產(chǎn)品,構(gòu)建起“高層決策+精準(zhǔn)執(zhí)行”的具身智能框架,標(biāo)志著人工智能從數(shù)字世界向物理世界的跨越實(shí)現(xiàn)關(guān)鍵突破。這一系列專為機(jī)器人與具身智能場景設(shè)計(jì),通過視覺-語言-行動(dòng)(VLA)與具身推理(ER)的協(xié)同,首次實(shí)現(xiàn)機(jī)器人“理解-規(guī)劃-操作-調(diào)整”的全鏈路自主能力。?
雙雄并立:分工明確的智能體架構(gòu)?
1.GeminiRobotics-ER 1.5:物理世界的“戰(zhàn)略大腦”?
作為先進(jìn)視覺-語言模型(VLM),這款被稱為“高層大腦”的模型顛覆了傳統(tǒng)機(jī)器人的指令執(zhí)行模式。其核心優(yōu)勢在于物理世界推理與工具協(xié)同能力——能直接調(diào)用GoogleSearch等數(shù)字工具獲取實(shí)時(shí)信息(如分類垃圾時(shí)查閱當(dāng)?shù)鼗厥罩改希?,并將抽象需求拆解為可?zhí)行的多步驟計(jì)劃。在ERQA、Point-Bench等15項(xiàng)學(xué)術(shù)基準(zhǔn)測試中,該模型均達(dá)到“最先進(jìn)性能”,尤其在空間理解、物體狀態(tài)估計(jì)等關(guān)鍵維度表現(xiàn)突出,為復(fù)雜任務(wù)提供了邏輯嚴(yán)密的行動(dòng)藍(lán)圖。?
2.GeminiRobotics 1.5:精準(zhǔn)行動(dòng)的“執(zhí)行中樞”?
作為當(dāng)前最強(qiáng)大的VLA模型,其突破性創(chuàng)新在于**“思考式執(zhí)行”與跨軀體遷移能力**。與傳統(tǒng)機(jī)器人直接轉(zhuǎn)化指令不同,該模型在行動(dòng)前會(huì)生成自然語言推理序列:以“按顏色分類衣物”為例,它會(huì)先完成“目標(biāo)分解(白衣/彩色分離)→策略制定(優(yōu)先拾取大件衣物)→動(dòng)作計(jì)算(調(diào)整夾爪力度)”的內(nèi)部思考,再輸出毫米級運(yùn)動(dòng)指令。更值得關(guān)注的是其跨軀體學(xué)習(xí)能力:在ALOHA2機(jī)器人上習(xí)得的技能,可零特化遷移至Apptronik人形機(jī)器人Apollo或Franka雙臂機(jī)器人,徹底解決了機(jī)器人技能“一機(jī)一訓(xùn)”的行業(yè)痛點(diǎn)。?
協(xié)作機(jī)制:從指令到行動(dòng)的閉環(huán)革命?
兩款模型形成的分層協(xié)作體系,重新定義了機(jī)器人任務(wù)處理流程:?
需求解析:GeminiRobotics-ER 1.5接收自然語言指令(如“整理辦公桌面并沖泡咖啡”),結(jié)合視覺輸入分析環(huán)境狀態(tài);
計(jì)劃生成:調(diào)用數(shù)字工具驗(yàn)證可行性(如確認(rèn)咖啡機(jī)操作步驟),輸出“清理文件→擦拭桌面→準(zhǔn)備咖啡豆→啟動(dòng)機(jī)器”的分步計(jì)劃;?
動(dòng)作執(zhí)行:GeminiRobotics 1.5將每步計(jì)劃轉(zhuǎn)化為機(jī)械臂運(yùn)動(dòng)軌跡,實(shí)時(shí)調(diào)整力度與角度;?
動(dòng)態(tài)優(yōu)化:執(zhí)行中通過視覺反饋修正偏差(如咖啡粉灑落時(shí)自動(dòng)暫停并清理)。?
這種架構(gòu)使機(jī)器人首次具備處理“語義復(fù)雜+環(huán)境動(dòng)態(tài)”任務(wù)的能力,泛化性與魯棒性較前代提升40%以上。








