
北京智源人工智能研究院(BAAI)發(fā)布了一種能夠理解文本、圖像和視頻的多功能人工智能模型,使其成為首批推出多模式模型的國內(nèi)公司之一。
隨著國內(nèi)人工智能初創(chuàng)企業(yè)突破先進芯片和資金獲取受限問題,國內(nèi)行業(yè)一直在競相跟上OpenAI和谷歌等行業(yè)領(lǐng)導(dǎo)者的快速模型開發(fā)。北京智源人工智能研究院是一家非營利機構(gòu),致力于國內(nèi)人工智能社區(qū)的發(fā)展。
北京智源人工智能研究院周一在北京舉行的活動上表示,其最新一代多模態(tài)模型Emu3采用簡單的架構(gòu)設(shè)計來訓(xùn)練模型理解圖片并制作視頻片段。多模態(tài)模型旨在理解多種類型的輸入數(shù)據(jù),例如文本、視頻和音頻,而傳統(tǒng)模型只能處理一種類型。
北京智源人工智能研究院院長王仲遠表示,Emu3成功驗證了下一個標(biāo)記預(yù)測可以作為多模態(tài)模型的強大范例,超越語言模型并在多模態(tài)任務(wù)中提供最先進的性能。
王仲遠表示:“通過將圖像、文本和視頻標(biāo)記為離散空間,我們在多模態(tài)序列的混合上從頭開始訓(xùn)練單個變壓器?!彼a充,Emu3完全消除了對擴散或組合方法的需求。
北京智源人工智能研究院紹,Emu3在生成和感知任務(wù)中的表現(xiàn)均優(yōu)于幾種成熟的特定任務(wù)模型,研究院已向國際技術(shù)界開源了Emu3的關(guān)鍵技術(shù)和模型。
技術(shù)從業(yè)者表示,通過統(tǒng)一架構(gòu)探索多模態(tài)性的新機會已經(jīng)出現(xiàn),從而無需將復(fù)雜的擴散模型與大型語言模型(LLM)相結(jié)合。
“未來多模態(tài)世界模型將推動機器人大腦、自動駕駛、多模態(tài)對話與推理等場景應(yīng)用?!蓖踔龠h指出。








