
艾倫人工智能研究所(Ai2)發(fā)布了多模態(tài)開放語言模型(Molmo),該模型可以解讀圖像,也可以通過聊天界面進行交談。這意味著模型能理解計算機屏幕,可幫助人工智能代理執(zhí)行瀏覽網(wǎng)頁、瀏覽文件目錄和起草文檔等任務(wù)。
Ai2首席執(zhí)行官、華盛頓大學(xué)計算機科學(xué)家Ali Farhadi表示:“通過此版本,更多的人可以部署多模式模型,其將成為下一代應(yīng)用程序的推動因素?!?/p>
人工智能代理被廣泛吹捧為人工智能領(lǐng)域的下一個大事件,OpenAI、谷歌和其他公司都在競相開發(fā)。代理最近成了一個流行詞,但宏偉的愿景是讓人工智能超越聊天,在收到命令后能在計算機上執(zhí)行復(fù)雜而精密的操作。
一些強大的人工智能模型已經(jīng)具備視覺能力,包括OpenAI的GPT-4、Anthropic的Claude和 Google DeepMind的Gemini。這些模型可用于為一些實驗性人工智能代理提供支持,但它們隱藏在視圖中,只能通過付費應(yīng)用程序編程接口(API)訪問。
普林斯頓大學(xué)研究人工智能代理博士后Ofir Press表示:“擁有一個開源的多模式模型意味著有想法的初創(chuàng)公司或研究人員都可以嘗試這樣做?!?/p>
Press表示,Molmo是開源的,這意味著開發(fā)人員將能夠通過提供額外的訓(xùn)練數(shù)據(jù),更輕松針對特定任務(wù)(例如處理電子表格)微調(diào)人工智能代理。GPT-4等模型只能通過其API在有限的程度上進行微調(diào),而完全開放的模型則可以進行廣泛的修改?!爱斈銚碛邢襁@樣的開源模型時,你就有了更多的選擇。”
Ai2發(fā)布了幾種尺寸的Molmo,包括一個700億參數(shù)的模型和一個10億參數(shù)的模型,后者小到可以在移動設(shè)備上運行。模型的參數(shù)數(shù)量是指它包含的用于存儲和操作數(shù)據(jù)的單元數(shù)量,大致相當于其功能。
Ai2表示,盡管Molmo規(guī)模相對較小,但它的能力與規(guī)模大得多的商業(yè)模型相當,因為它是在高質(zhì)量數(shù)據(jù)上經(jīng)過精心訓(xùn)練的。新模型也是完全開源的,與Meta Llama不同,Molmo的使用沒有任何限制。Ai2還發(fā)布了用于創(chuàng)建模型的訓(xùn)練數(shù)據(jù),為研究人員提供了有關(guān)其工作原理的更多細節(jié)。
Ai2 Farhadi認為,Molmo的效率和便攜性將使開發(fā)人員能夠構(gòu)建更強大的軟件代理,這些代理可以在智能手機和其他便攜式設(shè)備上本地運行?!笆畠|參數(shù)模型現(xiàn)在的性能水平至少可以與比它大10倍的模型相媲美?!?/p>
然而,構(gòu)建有用的人工智能代理可能不僅僅依賴于更高效的多模態(tài)模型。一個關(guān)鍵挑戰(zhàn)是讓模型更可靠工作。這很可能需要在人工智能的推理能力上取得進一步突破——OpenAI試圖用其最新模型o1來解決這個問題,該模型展示了逐步推理的技巧。下一步很可能是賦予多模態(tài)模型這樣的推理能力。
目前,Molmo的發(fā)布意味著人工智能代理比以往任何時候都更接近現(xiàn)實——并且很快就會在統(tǒng)治人工智能世界的巨頭之外發(fā)揮作用。








