
據(jù)The Information報(bào)道,谷歌最早可能在12月預(yù)覽其Rabbit大型交互模型概念。據(jù)該媒體采訪的三位直接了解該項(xiàng)目的人士稱,該項(xiàng)目代號(hào)為“Project Jarvis”,可執(zhí)行包括“收集研究、購買產(chǎn)品或預(yù)訂航班”在內(nèi)的用戶任務(wù)。
據(jù)悉,Jarvis搭載谷歌Gemini未來版本,與網(wǎng)絡(luò)瀏覽器兼容(專門針對(duì)Chrome進(jìn)行了調(diào)整)。The Information指出,該工具旨在通過截取和解釋屏幕截圖,然后點(diǎn)擊按鈕或輸入文本,幫助人們“自動(dòng)執(zhí)行日常的基于網(wǎng)絡(luò)的任務(wù)”。目標(biāo)是創(chuàng)建一個(gè)可以直接與用戶計(jì)算機(jī)和瀏覽器交互的人工智能代理,將在線瀏覽提升到一個(gè)新的自動(dòng)化水平。
接到命令/操作后,Jarvis的工作原理是“頻繁截取計(jì)算機(jī)屏幕上的內(nèi)容,并在執(zhí)行諸如單擊按鈕或在文本字段中輸入內(nèi)容之類的操作之前解釋截圖”。Jarvis“運(yùn)行速度相對(duì)較慢,因?yàn)槟P驮趫?zhí)行每個(gè)操作之前需要思考幾秒鐘?!币虼?,這很可能還無法在設(shè)備上實(shí)現(xiàn),仍然需要云端處理。
如今,最大的人工智能公司都在研究能夠完成The Information所描述任務(wù)的模型。微軟Copilot Vision可讓用戶與它談?wù)撜跒g覽的網(wǎng)頁;預(yù)計(jì)Apple Intelligence將在明年某個(gè)時(shí)候可使用戶了解屏幕內(nèi)容,并在多個(gè)應(yīng)用程序中執(zhí)行操作;Anthropic推出了一款“繁瑣且容易出錯(cuò)”的Claude測(cè)試版更新,它可以使用計(jì)算機(jī)執(zhí)行任務(wù),而OpenAI 稱也在開發(fā)此類版本。
The Information提醒,谷歌在12月展示Jarvis的計(jì)劃可能會(huì)發(fā)生變化。據(jù)報(bào)道,該公司正考慮向少數(shù)測(cè)試人員發(fā)布該功能,以查找并幫助解決漏洞。








