在2025世界機(jī)器人大會主論壇上,中國工程院院士倪光南發(fā)表了題為《“AI+空間計(jì)算”讓機(jī)器看懂世界》的重要報告。他指出,在人工智能引領(lǐng)科技范式變革的當(dāng)下,國家大力實(shí)施“人工智能+”行動,機(jī)器人領(lǐng)域正邁向“AI+機(jī)器人”的新階段,這將極大地發(fā)揮新質(zhì)生產(chǎn)力的作用。
倪光南強(qiáng)調(diào),要實(shí)現(xiàn)這一目標(biāo),關(guān)鍵在于提升機(jī)器人的智能水平。一個具備腦-眼-行動協(xié)同能力的系統(tǒng),對于提高機(jī)器人智能水平至關(guān)重要,只有這樣,機(jī)器人才能真正看見世界、理解世界,并在世界中靈活行動。
倪光南表示,盡管生成式大語言模型在當(dāng)前科技發(fā)展中占據(jù)重要地位,但它并非世界的全部。生成式AI難以全面、準(zhǔn)確地反映復(fù)雜多變的物理世界。而空間計(jì)算技術(shù)的出現(xiàn),為物理世界的重構(gòu)與生成提供了新途徑。目前,“AI+空間計(jì)算”的融合正以一種創(chuàng)新的方式,對三維物理世界進(jìn)行重構(gòu),成功搭建起大模型與物理世界之間的橋梁,有力地促進(jìn)了物理世界與數(shù)字世界的融合。
空間計(jì)算在這一過程中發(fā)揮著不可或缺的作用。倪光南在演講中明確指出,“AI+空間計(jì)算”是當(dāng)下落實(shí)“人工智能+”行動的一項(xiàng)關(guān)鍵核心技術(shù)。從信息處理的角度來看,人類通過眼睛獲取信息,大腦對這些信息進(jìn)行處理,從而構(gòu)建對世界的認(rèn)知。在認(rèn)識和理解世界的過程中,視頻信息起著重要作用,視覺更是物理世界控制感知的基礎(chǔ),是連接大腦與物理世界的重要橋梁。同樣,機(jī)器人借助“AI+空間計(jì)算”技術(shù),也能夠?qū)κ澜邕M(jìn)行理解和建模。
可以預(yù)見,機(jī)器人產(chǎn)業(yè)作為未來產(chǎn)業(yè)和新興產(chǎn)業(yè),具有巨大的發(fā)展?jié)摿?。機(jī)器人的智能一般涵蓋腦、眼和行動系統(tǒng)三大部分,這三部分共同構(gòu)成具身智能系統(tǒng),能夠充分展現(xiàn)機(jī)器人的智慧并發(fā)揮其作用。然而,當(dāng)前在機(jī)器人的腦和眼方面的投入相對不足,成為制約機(jī)器人發(fā)展的短板,亟待加強(qiáng),以進(jìn)一步提升機(jī)器人的效能。
倪光南進(jìn)一步解釋說,如同智能汽車分為L1-L5不同等級,機(jī)器人領(lǐng)域也有類似的分類方式。現(xiàn)階段的機(jī)器人大致處于L1-L3水平。倪光南希望通過對“眼睛”和“腦”技術(shù)的研發(fā)與發(fā)展,將機(jī)器人的整體智能水平提升至L4以上。只有達(dá)到這一水平,機(jī)器人才能真正發(fā)揮其能力,尤其是在移動、自主和高精度作業(yè)方面,從而在提升生產(chǎn)效率方面發(fā)揮更大作用。
對于機(jī)器人的行動系統(tǒng)而言,機(jī)器人的手、腳、輪子等與外界發(fā)生交互時,需要一個穩(wěn)定可靠的操作系統(tǒng)。中國科學(xué)院軟件所支持的開源機(jī)器人操作系統(tǒng)AGIROS,通過開源開放、協(xié)同創(chuàng)新的模式,凝聚了機(jī)器人產(chǎn)學(xué)研用各方面的資源,為智能機(jī)器人的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),有力地支撐著“機(jī)器人的行動”。