谷歌正將其DeepMind人工智能技術(shù)模型帶入物理世界,為機器人提供動力支持。?
周三,該公司推出了兩款新的人工智能模型,分別是Gemini Robotics和Gemini Robotics – ER(擴展推理)。它們均基于Gemini 2.0 運行,谷歌稱Gemini 2.0是迄今為止“最強大”的人工智能。Gemini Robotics不僅局限于文本和圖像等輸出(這些是目前生成式人工智能蓬勃發(fā)展的領(lǐng)域),還能夠發(fā)出控制機器人物理動作的指令。?
谷歌博文表示,將與機器人開發(fā)商Apptronik合作,“利用Gemini 2.0打造下一代人形機器人”。Apptronik已經(jīng)與英偉達展開合作,并且此前曾與美國國家航空航天局(NASA)有過合作。該公司上個月宣布,谷歌也參與了其3.5億美元的融資。?
在演示視頻中,谷歌展示了配備新人工智能模型的Apptronik機器人。這些機器人能夠根據(jù)語音指令將物品插入電源板、裝滿午餐盒、移動塑料蔬菜以及拉上袋子。不過,該公司并未給出這項技術(shù)何時上市的時間表。?
Gemini Robotics – ER是為機器人專家設(shè)計的,可作為訓練模型的基礎(chǔ)。它可供Apptronik以及Agile Robots、Agility Robots、波士頓動力(Boston Dynamics)和Enchanted Tools 等“可信賴的測試人員”使用。?
在機器人人工智能的探索之路上,谷歌并非獨自前行。據(jù)OpenAI網(wǎng)站介紹,去年11月,OpenAI對Physical Intelligence進行了投資。Physical Intelligence是一家專注于通過開發(fā)大規(guī)模人工智能模型和算法為機器人提供動力的初創(chuàng)公司,致力于“將通用人工智能帶入物理世界”。?
國內(nèi)將進一步加大對人工智能模型應(yīng)用以及風險投資發(fā)展的支持力度,旨在推動更多技術(shù)實現(xiàn)突破,提升自主創(chuàng)新能力。
據(jù)相關(guān)報道,中國正著力培育“未來產(chǎn)業(yè)”,涵蓋生物制造、量子技術(shù)、具身人工智能以及6G技術(shù)等前沿領(lǐng)域。為達成這一目標,中國計劃探索國家實驗室的全新運作模式,為年輕科學家和工程師提供有力支持,并委以“重要職責”,充分激發(fā)青年科研人才的創(chuàng)新活力。
該報告進一步指出,中國將大力支持大規(guī)模人工智能模型的應(yīng)用,以及下一代智能終端和智能制造終端的研發(fā)工作。值得注意的是,這是政府工作報告中首次提及人工智能模型,且恰逢DeepSeek近期在全球范圍內(nèi)引發(fā)廣泛關(guān)注之際。
報告中明確表示:“中國將積極營造有利于創(chuàng)新的良好環(huán)境,鼓勵探索嘗試,寬容失敗挫折?!?/p>
此外,國務(wù)院亦表示將加快完善基礎(chǔ)數(shù)據(jù)體系,有序推進跨境數(shù)據(jù)的合理流動,為產(chǎn)業(yè)發(fā)展提供堅實的數(shù)據(jù)支撐。
想象一下,使用人工智能來比較兩個看似毫無關(guān)聯(lián)的創(chuàng)作——生物組織和貝多芬的《第九交響曲》。乍一看,生命系統(tǒng)和音樂杰作似乎毫無關(guān)聯(lián)。然而,麻省理工學院McAfee工程學教授、土木與環(huán)境工程和機械工程教授Markus J. Buehler開發(fā)的一種新穎的人工智能方法彌補了這一差距,揭示了復雜性和秩序的共同模式。
“通過將生成式人工智能與基于圖形的計算工具相結(jié)合,這種方法揭示了以前無法想象的全新想法、概念和設(shè)計。我們可以通過教導生成式人工智能對從未見過的想法、概念和設(shè)計做出新穎的預(yù)測來加速科學發(fā)現(xiàn)。”
這項開放獲取的研究發(fā)表在《機器學習:科學與技術(shù)》上,展示了一種集成生成知識提取、基于圖形的表示和多模態(tài)智能圖形推理的先進人工智能方法。
這項研究使用受范疇論啟發(fā)的方法開發(fā)的圖表作為核心機制,教導模型理解科學中的符號關(guān)系。范疇論是數(shù)學的一個分支,它研究抽象結(jié)構(gòu)及其之間的關(guān)系,通過關(guān)注對象及其相互作用而不是其具體內(nèi)容,為理解和統(tǒng)一不同的系統(tǒng)提供了一個框架。在范疇論中,系統(tǒng)被視為對象(可以是任何東西,從數(shù)字到更抽象的實體,如結(jié)構(gòu)或過程)和態(tài)射(定義這些對象之間關(guān)系的箭頭或函數(shù))。通過使用這種方法,Buehler能夠教會人工智能模型系統(tǒng)推理復雜的科學概念和行為。通過態(tài)射引入的符號關(guān)系清楚表明,人工智能不僅僅是進行類比,而且還在進行更深層次的推理,將抽象結(jié)構(gòu)映射到不同的領(lǐng)域。
Buehler使用這種新方法分析了1000篇有關(guān)生物材料的科學論文,并將其轉(zhuǎn)化為圖形形式的知識圖譜。該圖譜揭示了不同信息之間的聯(lián)系,并能夠找到將許多概念聯(lián)系在一起的相關(guān)思想和關(guān)鍵點。
“真正有趣的是,圖譜遵循無標度特性,具有高度連通性,可以有效用于圖推理。換句話說,我們教人工智能系統(tǒng)思考基于圖譜的數(shù)據(jù),以幫助它們構(gòu)建更好的世界表征模型,并增強思考和探索新想法的能力,從而實現(xiàn)發(fā)現(xiàn)?!?/p>
去年2月當谷歌人工智能聊天機器人Bard聲稱韋伯太空望遠鏡已經(jīng)拍攝了第一張?zhí)栂低庑行堑膱D像,但事實并非如此。當普渡大學研究人員向ChatGPT提出500多個編程問題時,超過一半的回答是不準確的。
為此專家擔心,隨著模型越來越大,回答的問題也越來越復雜,人工智能所具備的專業(yè)知識最終將超越大多數(shù)人類用戶。如果這樣的“超人”系統(tǒng)真的出現(xiàn)了,我們怎么能相信它們說的話?“關(guān)鍵在于你試圖解決的問題超出了你的實際能力,”,紐約大學數(shù)據(jù)科學中心的計算機科學家朱利安·邁克爾表示,“如何監(jiān)督一個系統(tǒng)成功完成你無法執(zhí)行的任務(wù)?”
而如果讓兩個大型模型辯論給定問題的答案,留下一個更簡單的模型(或人類)來識別更準確的答案。從理論上講,這個過程允許兩個智能體相互挑剔對方的論點,直到掌握足夠的信息來辨別真相。
構(gòu)建值得信賴的人工智能系統(tǒng)是更大目標的一部分,即“協(xié)調(diào)一致”,其重點是確保人工智能系統(tǒng)與人類用戶具有相同的價值觀和目標。如今,“協(xié)調(diào)一致”依賴于人類反饋——人類評判人工智能,但人類反饋可能很快就不足以確保系統(tǒng)的準確性。近年來,研究人員越來越多呼吁采用“可擴展監(jiān)督”的新方法,這是一種確保真相的方法,即使超人系統(tǒng)執(zhí)行人類無法執(zhí)行的任務(wù)也是如此。
多年來,計算機科學家一直在思考可擴展的監(jiān)督。在LLM變得如此龐大和普遍之前,2018年,人們開始爭論一種可能性方法,該方法的創(chuàng)始人之一是杰弗里·歐文,他現(xiàn)在是英國人工智能安全研究所的首席科學家。杰弗里于2017年加入OpenAI,兩年后該公司發(fā)布了GPT-2,這是最早受到廣泛關(guān)注的LLM之一。杰弗里希望最終致力于將人工智能系統(tǒng)與人類目標相結(jié)合,“試圖問問人類他們想要什么,然后讓模型去做?!?/p>