
北京智源人工智能研究院(BAAI)發(fā)布了一種能夠理解文本、圖像和視頻的多功能人工智能模型,使其成為首批推出多模式模型的國(guó)內(nèi)公司之一。
隨著國(guó)內(nèi)人工智能初創(chuàng)企業(yè)突破先進(jìn)芯片和資金獲取受限問(wèn)題,國(guó)內(nèi)行業(yè)一直在競(jìng)相跟上OpenAI和谷歌等行業(yè)領(lǐng)導(dǎo)者的快速模型開(kāi)發(fā)。北京智源人工智能研究院是一家非營(yíng)利機(jī)構(gòu),致力于國(guó)內(nèi)人工智能社區(qū)的發(fā)展。
北京智源人工智能研究院周一在北京舉行的活動(dòng)上表示,其最新一代多模態(tài)模型Emu3采用簡(jiǎn)單的架構(gòu)設(shè)計(jì)來(lái)訓(xùn)練模型理解圖片并制作視頻片段。多模態(tài)模型旨在理解多種類(lèi)型的輸入數(shù)據(jù),例如文本、視頻和音頻,而傳統(tǒng)模型只能處理一種類(lèi)型。
北京智源人工智能研究院院長(zhǎng)王仲遠(yuǎn)表示,Emu3成功驗(yàn)證了下一個(gè)標(biāo)記預(yù)測(cè)可以作為多模態(tài)模型的強(qiáng)大范例,超越語(yǔ)言模型并在多模態(tài)任務(wù)中提供最先進(jìn)的性能。
王仲遠(yuǎn)表示:“通過(guò)將圖像、文本和視頻標(biāo)記為離散空間,我們?cè)诙嗄B(tài)序列的混合上從頭開(kāi)始訓(xùn)練單個(gè)變壓器?!彼a(bǔ)充,Emu3完全消除了對(duì)擴(kuò)散或組合方法的需求。
北京智源人工智能研究院紹,Emu3在生成和感知任務(wù)中的表現(xiàn)均優(yōu)于幾種成熟的特定任務(wù)模型,研究院已向國(guó)際技術(shù)界開(kāi)源了Emu3的關(guān)鍵技術(shù)和模型。
技術(shù)從業(yè)者表示,通過(guò)統(tǒng)一架構(gòu)探索多模態(tài)性的新機(jī)會(huì)已經(jīng)出現(xiàn),從而無(wú)需將復(fù)雜的擴(kuò)散模型與大型語(yǔ)言模型(LLM)相結(jié)合。
“未來(lái)多模態(tài)世界模型將推動(dòng)機(jī)器人大腦、自動(dòng)駕駛、多模態(tài)對(duì)話與推理等場(chǎng)景應(yīng)用?!蓖踔龠h(yuǎn)指出。








