人工智能開發(fā)平臺(tái)Hugging Face有了新動(dòng)作,其發(fā)布了一款名為SmolVLA的開源機(jī)器人AI模型。別看這款模型只有4.5億個(gè)參數(shù),在模型“江湖”中屬于規(guī)模較小的那一類,但其在虛擬和現(xiàn)實(shí)環(huán)境中的表現(xiàn)卻十分驚艷,甚至超過了許多規(guī)模更大的機(jī)器人模型。?
Hugging Face在其博客文章中提到,SmolVLA致力于讓視覺-語言-行動(dòng)(VLA)模型的使用更為普及,同時(shí)加速通用機(jī)器人智能體的研究進(jìn)程。它可不單單是一個(gè)輕量級(jí)且功能強(qiáng)大的模型,更是一種用于訓(xùn)練和評估通用機(jī)器人技術(shù)的新方法。?
從運(yùn)行條件來看,SmolVLA的規(guī)模小到超乎想象,它能夠在單個(gè)消費(fèi)級(jí)GPU上運(yùn)行,甚至在MacBook上也能順暢運(yùn)作。并且,它還可以在諸如該公司自身機(jī)器人系統(tǒng)等“經(jīng)濟(jì)實(shí)惠”的硬件上進(jìn)行測試和部署。這對于廣大科研人員以及機(jī)器人愛好者來說,大大降低了研究和實(shí)踐的門檻,以往因?yàn)橛布l件限制而無法開展的相關(guān)研究,現(xiàn)在借助SmolVLA都有了實(shí)現(xiàn)的可能。?
值得一提的是,SmolVLA還支持“異步推理堆?!边@一獨(dú)特功能。簡單來說,這一功能能夠使模型將機(jī)器人行動(dòng)的處理與視覺和聽覺的處理分離開來。正如Hugging Face在博客中所解釋的:“由于這種分離,機(jī)器人能夠在快速變化的環(huán)境中更快地做出響應(yīng)?!迸e例來講,在一些復(fù)雜且動(dòng)態(tài)變化的場景中,如在混亂的倉庫環(huán)境里執(zhí)行貨物搬運(yùn)任務(wù),或者在救援現(xiàn)場協(xié)助搜尋工作時(shí),具備“異步推理堆?!惫δ艿臋C(jī)器人可以更迅速地對周圍環(huán)境的變化做出反應(yīng),及時(shí)調(diào)整行動(dòng)策略,從而高效完成任務(wù)。?
SmolVLA是基于Hugging Face AI開發(fā)平臺(tái)上共享的LeRobot社區(qū)數(shù)據(jù)集進(jìn)行訓(xùn)練的,這些數(shù)據(jù)集都是專門標(biāo)記過的機(jī)器人數(shù)據(jù)集。它也是Hugging Face迅速拓展的低成本機(jī)器人軟硬件生態(tài)系統(tǒng)的重要組成部分。回顧去年,該公司推出了LeRobot,這是一套專注于機(jī)器人的模型、數(shù)據(jù)集和工具,而SmolVLA的出現(xiàn),進(jìn)一步豐富和完善了這一生態(tài)系統(tǒng)。