
英偉達發(fā)布了強大的開源人工智能模型,可與OpenAI和谷歌等行業(yè)領(lǐng)導(dǎo)者的專有模型競爭。
該公司新推出的NVLM 1.0系列大型多模態(tài)語言模型,以720億參數(shù)的NVLM-D-72B為首,在視覺和語言任務(wù)中表現(xiàn)卓越,同時還增強了純文本功能。
研究人員解釋:“我們推出了NVLM 1.0,這是一系列前沿級多模態(tài)大型語言模型,在視覺語言任務(wù)上取得了最先進的成果,可與領(lǐng)先的專有模型(例如GPT-4o)和開放獲取模型相媲美?!?/p>
通過公開模型權(quán)重并承諾發(fā)布訓(xùn)練代碼,英偉達打破了先進AI系統(tǒng)封閉的趨勢。這一決定讓研究人員和開發(fā)者獲得了前所未有的接觸尖端技術(shù)的機會。
NVLM-D-72B模型在處理復(fù)雜的視覺和文本輸入方面表現(xiàn)出了令人印象深刻的適應(yīng)性。研究人員提供了一些示例,突出了該模型解釋模因、分析圖像和逐步解決數(shù)學(xué)問題的能力。
值得注意的是,NVLM-D-72B在經(jīng)過多模態(tài)訓(xùn)練后,在純文本任務(wù)上的表現(xiàn)有所提高。雖然許多類似模型的文本性能有所下降,但NVLM-D-72B在關(guān)鍵文本基準測試中將其準確率平均提高了4.3分。
研究人員指出:“NVLM-D-1.0-72B在純文本數(shù)學(xué)和編碼基準測試中比其文本主干有了顯著的改進”,并強調(diào)了一個關(guān)鍵優(yōu)勢。
英偉達決定公開如此強大的模型,這可能會加速整個領(lǐng)域的AI研究和開發(fā)。通過提供可與資金雄厚的科技公司專有模型相媲美的模型,英偉達可能會讓較小的公司和獨立研究人員為AI進步做出更大貢獻。
此外NVLM項目還引入了創(chuàng)新的架構(gòu)設(shè)計,包括結(jié)合不同多模態(tài)處理技術(shù)的混合方法,這一發(fā)展可能會影響該領(lǐng)域未來的研究方向。








