谷歌宣布對(duì)AI模型Gemini進(jìn)行重大更新,發(fā)布“2.0”更新。更新后的AI模型具有更廣泛的多模式推理,并在其軟件包中引入了代理AI。
Gemini 2.0 Flash是Gemini 2.0完整套件的低延遲版本,現(xiàn)在作為實(shí)驗(yàn)?zāi)P拖蛩蠫emini用戶開(kāi)放。具體來(lái)說(shuō),開(kāi)發(fā)者可以訪問(wèn)新的Gemini API(Google AI Studio、Vertex AI Studio),最終用戶可以在Gemini桌面和移動(dòng)網(wǎng)站內(nèi)試用2.0 Flash Experimental(稍后將支持Gemini APP)。
Gemini 2.0 Flash現(xiàn)在支持多模式輸出和輸入,超越了Gemini 1.5 Flash僅提供的多模式輸入功能。
Gemini 2.0現(xiàn)在可以使用生成的圖像(與文本混合)以及可控制的文本轉(zhuǎn)語(yǔ)音多語(yǔ)言音頻進(jìn)行響應(yīng)。此外,Gemini 2.0 Flash還可調(diào)用Google原生應(yīng)用(如Google搜索)、執(zhí)行代碼和執(zhí)行第三方應(yīng)用定義其他功能。
Gemini 2.0 Flash的另一個(gè)核心部分是多模態(tài)推理、長(zhǎng)上下文理解、復(fù)雜指令追蹤和規(guī)劃以及組合函數(shù)調(diào)用。這些感知、推理、行動(dòng)和學(xué)習(xí)的結(jié)合元素使Gemini 2.0 Flash具有代理AI的能力。
顯然,與代理型人工智能之前的其他人工智能迭代一樣,最終的終端用戶應(yīng)用取決于開(kāi)發(fā)者使用Gemini構(gòu)建的工具。與基于單一輸入(提示、結(jié)果、重復(fù))創(chuàng)建內(nèi)容的生成型人工智能不同,代理型人工智能可以理解更長(zhǎng)且多步驟的提示,為其制定策略,并執(zhí)行一系列任務(wù);還可以根據(jù)自身工作的反饋和用戶的偏好進(jìn)一步完善其未來(lái)。
谷歌有兩個(gè)正在進(jìn)行的項(xiàng)目,展示了Gemini代理AI功能的未來(lái)。
其中一個(gè)是Project Astra,其已經(jīng)能夠熟練掌握多種語(yǔ)言、混合語(yǔ)言、口音和生僻詞;還可以使用Gemini 2.0提取Google搜索、Google Lens和Google地圖;還具有長(zhǎng)達(dá)10分鐘的擴(kuò)展會(huì)話記憶,可以更好回憶過(guò)去的對(duì)話;延遲也有所改善,谷歌聲稱Project Astra現(xiàn)在能夠以與普通人類對(duì)話相當(dāng)?shù)难舆t理解語(yǔ)言。
另一個(gè)例子是Project Mariner,其是使用Gemini 2.0構(gòu)建的早期原型。Project Mariner被設(shè)計(jì)為一個(gè)瀏覽器原型,能夠理解和推理用戶瀏覽器屏幕上的信息,以代表用戶完成瀏覽器內(nèi)的任務(wù)(需要一個(gè)實(shí)驗(yàn)性的Chrome擴(kuò)展程序)。谷歌表示,這證明了代理人工智能在技術(shù)上可以用于瀏覽器導(dǎo)航。
最后,谷歌Jules,一個(gè)面向編碼開(kāi)發(fā)者的實(shí)驗(yàn)性AI代理,可直接在GitHub工作流中運(yùn)行。