谷歌推出Gemini Robotics On-Device,引領(lǐng)機(jī)器人本地智能新時代

?? 由 文心大模型 生成的文章摘要

6月25日,人工智能領(lǐng)域迎來了一個重要的里程碑—— 谷歌DeepMind正式推出了Gemini Robotics On – Device,這是其首個能夠直接部署在機(jī)器人硬件上的視覺-語言-動作(Vision – Language – Action,VLA)模型。這一創(chuàng)新成果將 Gemini 2.0強(qiáng)大的多模態(tài)推理能力與對現(xiàn)實世界的深刻理解融入到物理實體操作中,為機(jī)器人在復(fù)雜環(huán)境下的自主作業(yè)帶來了質(zhì)的飛躍。?

今年3月,谷歌推出Gemini Robotics已然展示了其在VLA模型領(lǐng)域的領(lǐng)先地位。而此次發(fā)布的Gemini Robotics On – Device,則是在此基礎(chǔ)上的進(jìn)一步優(yōu)化與突破。它專為本地機(jī)器人設(shè)備運行而設(shè)計,具備出色的通用靈活性和任務(wù)泛化能力,能夠在各種復(fù)雜多變的場景中展現(xiàn)卓越性能。?

Gemini Robotics On – Device的最大亮點之一,在于其無需持續(xù)聯(lián)網(wǎng)即可工作。這一特性使其在應(yīng)對延遲敏感型應(yīng)用時游刃有余,即便是在網(wǎng)絡(luò)連接不穩(wěn)定甚至完全中斷的環(huán)境下,機(jī)器人也能憑借該模型穩(wěn)定、可靠地執(zhí)行任務(wù)。例如在一些工業(yè)生產(chǎn)場景中,網(wǎng)絡(luò)波動可能導(dǎo)致機(jī)器人作業(yè)停滯,而 Gemini Robotics On – Device 則可確保生產(chǎn)流程不受影響,大大提升了生產(chǎn)效率和穩(wěn)定性。?

從技術(shù)架構(gòu)來看,Gemini Robotics On – Device是為雙臂機(jī)器人量身打造的基礎(chǔ)模型,在設(shè)計上對計算資源的需求進(jìn)行了極致優(yōu)化。它繼承了Gemini Robotics強(qiáng)大的任務(wù)泛化和靈活操控能力,并在此基礎(chǔ)上進(jìn)行了針對性改進(jìn):一是專為靈巧操作的快速實驗而設(shè)計,能夠快速響應(yīng)并執(zhí)行各類精細(xì)動作指令;二是支持通過微調(diào)來適應(yīng)新任務(wù),開發(fā)者只需少量的樣本演示,就能讓模型在新的應(yīng)用場景中實現(xiàn)性能提升;三是經(jīng)過深度優(yōu)化,可在本地實現(xiàn)低延遲推理,機(jī)器人能夠迅速對感知到的信息做出反應(yīng),精準(zhǔn)完成諸如拉開袋子拉鏈、折疊衣物等高難度靈巧操作任務(wù),且所有操作均可直接在機(jī)器人本體上完成,無需依賴云端計算。

在谷歌的一系列評估測試中,Gemini Robotics On – Device展現(xiàn)出了強(qiáng)大的泛化性能。在視覺泛化、語義理解以及行為泛化等多個維度的測試場景中,該模型均取得了優(yōu)異成績。特別是在處理復(fù)雜的分布外任務(wù)和多步驟指令時,其表現(xiàn)遠(yuǎn)超其他同類設(shè)備端模型,甚至在部分指標(biāo)上逼近云端運行的Gemini Robotics旗艦?zāi)P?。這意味著機(jī)器人在面對現(xiàn)實世界中各種未曾預(yù)演的復(fù)雜情況時,能夠更加智能、準(zhǔn)確地理解任務(wù)要求,并做出恰當(dāng)?shù)男袆記Q策。?

值得一提的是,Gemini Robotics On – Device還是谷歌首個支持開發(fā)者進(jìn)行微調(diào)的VLA模型。這一開放特性極大地拓展了模型的應(yīng)用邊界。雖然許多常見任務(wù)該模型已能開箱即用,但開發(fā)者可根據(jù)自身特定需求,通過50到100個演示樣本對模型進(jìn)行快速調(diào)整,使其在特定應(yīng)用中發(fā)揮出更優(yōu)性能。

谷歌團(tuán)隊通過實際測試展示了這一特性的強(qiáng)大之處,他們在七項不同難度的靈巧操作任務(wù)中對模型進(jìn)行了驗證,這些任務(wù)涵蓋了從簡單的拉開午餐盒拉鏈,到較為復(fù)雜的畫卡片、倒沙拉醬等。實驗結(jié)果表明,即使是面對最為復(fù)雜的任務(wù),模型在經(jīng)過不到100次的演示學(xué)習(xí)后,也能達(dá)到相當(dāng)高的操作成功率。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」