
谷歌宣布對AI模型Gemini進行重大更新,發(fā)布“2.0”更新。更新后的AI模型具有更廣泛的多模式推理,并在其軟件包中引入了代理AI。
Gemini 2.0 Flash是Gemini 2.0完整套件的低延遲版本,現(xiàn)在作為實驗模型向所有Gemini用戶開放。具體來說,開發(fā)者可以訪問新的Gemini API(Google AI Studio、Vertex AI Studio),最終用戶可以在Gemini桌面和移動網(wǎng)站內(nèi)試用2.0 Flash Experimental(稍后將支持Gemini APP)。
Gemini 2.0 Flash現(xiàn)在支持多模式輸出和輸入,超越了Gemini 1.5 Flash僅提供的多模式輸入功能。
Gemini 2.0現(xiàn)在可以使用生成的圖像(與文本混合)以及可控制的文本轉語音多語言音頻進行響應。此外,Gemini 2.0 Flash還可調(diào)用Google原生應用(如Google搜索)、執(zhí)行代碼和執(zhí)行第三方應用定義其他功能。
Gemini 2.0 Flash的另一個核心部分是多模態(tài)推理、長上下文理解、復雜指令追蹤和規(guī)劃以及組合函數(shù)調(diào)用。這些感知、推理、行動和學習的結合元素使Gemini 2.0 Flash具有代理AI的能力。
顯然,與代理型人工智能之前的其他人工智能迭代一樣,最終的終端用戶應用取決于開發(fā)者使用Gemini構建的工具。與基于單一輸入(提示、結果、重復)創(chuàng)建內(nèi)容的生成型人工智能不同,代理型人工智能可以理解更長且多步驟的提示,為其制定策略,并執(zhí)行一系列任務;還可以根據(jù)自身工作的反饋和用戶的偏好進一步完善其未來。
谷歌有兩個正在進行的項目,展示了Gemini代理AI功能的未來。
其中一個是Project Astra,其已經(jīng)能夠熟練掌握多種語言、混合語言、口音和生僻詞;還可以使用Gemini 2.0提取Google搜索、Google Lens和Google地圖;還具有長達10分鐘的擴展會話記憶,可以更好回憶過去的對話;延遲也有所改善,谷歌聲稱Project Astra現(xiàn)在能夠以與普通人類對話相當?shù)难舆t理解語言。
另一個例子是Project Mariner,其是使用Gemini 2.0構建的早期原型。Project Mariner被設計為一個瀏覽器原型,能夠理解和推理用戶瀏覽器屏幕上的信息,以代表用戶完成瀏覽器內(nèi)的任務(需要一個實驗性的Chrome擴展程序)。谷歌表示,這證明了代理人工智能在技術上可以用于瀏覽器導航。
最后,谷歌Jules,一個面向編碼開發(fā)者的實驗性AI代理,可直接在GitHub工作流中運行。








