迄今為止最強(qiáng)大的開源AI模型可為AI代理提供強(qiáng)大動(dòng)力

?? 由 文心大模型 生成的文章摘要

艾倫人工智能研究所(Ai2)發(fā)布了多模態(tài)開放語言模型(Molmo),該模型可以解讀圖像,也可以通過聊天界面進(jìn)行交談。這意味著模型能理解計(jì)算機(jī)屏幕,可幫助人工智能代理執(zhí)行瀏覽網(wǎng)頁、瀏覽文件目錄和起草文檔等任務(wù)。

Ai2首席執(zhí)行官、華盛頓大學(xué)計(jì)算機(jī)科學(xué)家Ali Farhadi表示:“通過此版本,更多的人可以部署多模式模型,其將成為下一代應(yīng)用程序的推動(dòng)因素?!?/p>

人工智能代理被廣泛吹捧為人工智能領(lǐng)域的下一個(gè)大事件,OpenAI、谷歌和其他公司都在競相開發(fā)。代理最近成了一個(gè)流行詞,但宏偉的愿景是讓人工智能超越聊天,在收到命令后能在計(jì)算機(jī)上執(zhí)行復(fù)雜而精密的操作。

一些強(qiáng)大的人工智能模型已經(jīng)具備視覺能力,包括OpenAI的GPT-4、Anthropic的Claude和 Google DeepMind的Gemini。這些模型可用于為一些實(shí)驗(yàn)性人工智能代理提供支持,但它們隱藏在視圖中,只能通過付費(fèi)應(yīng)用程序編程接口(API)訪問。

普林斯頓大學(xué)研究人工智能代理博士后Ofir Press表示:“擁有一個(gè)開源的多模式模型意味著有想法的初創(chuàng)公司或研究人員都可以嘗試這樣做?!?/p>

Press表示,Molmo是開源的,這意味著開發(fā)人員將能夠通過提供額外的訓(xùn)練數(shù)據(jù),更輕松針對(duì)特定任務(wù)(例如處理電子表格)微調(diào)人工智能代理。GPT-4等模型只能通過其API在有限的程度上進(jìn)行微調(diào),而完全開放的模型則可以進(jìn)行廣泛的修改?!爱?dāng)你擁有像這樣的開源模型時(shí),你就有了更多的選擇?!?/p>

Ai2發(fā)布了幾種尺寸的Molmo,包括一個(gè)700億參數(shù)的模型和一個(gè)10億參數(shù)的模型,后者小到可以在移動(dòng)設(shè)備上運(yùn)行。模型的參數(shù)數(shù)量是指它包含的用于存儲(chǔ)和操作數(shù)據(jù)的單元數(shù)量,大致相當(dāng)于其功能。

Ai2表示,盡管Molmo規(guī)模相對(duì)較小,但它的能力與規(guī)模大得多的商業(yè)模型相當(dāng),因?yàn)樗窃诟哔|(zhì)量數(shù)據(jù)上經(jīng)過精心訓(xùn)練的。新模型也是完全開源的,與Meta Llama不同,Molmo的使用沒有任何限制。Ai2還發(fā)布了用于創(chuàng)建模型的訓(xùn)練數(shù)據(jù),為研究人員提供了有關(guān)其工作原理的更多細(xì)節(jié)。

Ai2 Farhadi認(rèn)為,Molmo的效率和便攜性將使開發(fā)人員能夠構(gòu)建更強(qiáng)大的軟件代理,這些代理可以在智能手機(jī)和其他便攜式設(shè)備上本地運(yùn)行?!笆畠|參數(shù)模型現(xiàn)在的性能水平至少可以與比它大10倍的模型相媲美?!?/p>

然而,構(gòu)建有用的人工智能代理可能不僅僅依賴于更高效的多模態(tài)模型。一個(gè)關(guān)鍵挑戰(zhàn)是讓模型更可靠工作。這很可能需要在人工智能的推理能力上取得進(jìn)一步突破——OpenAI試圖用其最新模型o1來解決這個(gè)問題,該模型展示了逐步推理的技巧。下一步很可能是賦予多模態(tài)模型這樣的推理能力。

目前,Molmo的發(fā)布意味著人工智能代理比以往任何時(shí)候都更接近現(xiàn)實(shí)——并且很快就會(huì)在統(tǒng)治人工智能世界的巨頭之外發(fā)揮作用。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」