北京智源研究院發(fā)布“悟界”系列大模型,引領物理AGI新突破

?? 由 文心大模型 生成的文章摘要

6月6日,在2025北京智源大會上,北京智源人工智能研究院正式發(fā)布了“悟界”大模型,同時宣布了圍繞物理AGI(通用人工智能)所取得的最新科研成果與布局,一系列成果共同構(gòu)成了“悟界”系列大模型。這一發(fā)布不僅代表著智源研究院在人工智能領域的重大進展,也為物理AGI的發(fā)展注入了新的活力。

“悟界”這一命名寓意深刻,其中的“界”字象征著對虛實世界邊界的大膽突破,以及對物理世界進行深度賦能,體現(xiàn)了向物理AGI方向堅實邁進的決心。目前,“悟界”系列大模型涵蓋了四個極具創(chuàng)新性的模型,分別為原生多模態(tài)世界模型Emu3、腦科學多模態(tài)通用基礎模型見微Brainμ、具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。?

原生多模態(tài)世界模型Emu3早在2024年10月便已發(fā)布,其創(chuàng)新性基于下一個token預測范式,成功實現(xiàn)了多模態(tài)學習的統(tǒng)一。在技術實現(xiàn)上,Emu3通過研發(fā)新型視覺tokenizer,能夠?qū)D像與視頻巧妙編碼為與文本同構(gòu)的離散符號序列,進而構(gòu)建起模態(tài)無關的統(tǒng)一表征空間。這一特性使得Emu3在處理文本、圖像、視頻時,能夠?qū)崿F(xiàn)任意組合的理解與生成。Emu3支持多模態(tài)輸入與多模態(tài)輸出的端到端映射,有力驗證了自回歸框架在多模態(tài)領域的普適性與先進性,為跨模態(tài)交互提供了極為強大的技術支撐。舉例來說,在圖像生成任務中,基于人類偏好評測,Emu3優(yōu)于SD-1.5與SDXL模型;在視覺語言理解任務中,對于12項基準測試的平均得分,Emu3也優(yōu)于LlaVA-1.6;在視頻生成任務中,對于VBench基準測試得分,Emu3同樣優(yōu)于OpenSora1.2。?

見微Brainμ則是基于Emu3底層架構(gòu)精心打造的。它將fMRI、EEG、雙光子等神經(jīng)科學與腦醫(yī)學相關的腦信號統(tǒng)一進行token化處理,充分利用預訓練模型多模態(tài)對齊的顯著優(yōu)勢,達成了多模態(tài)腦信號與文本、圖像等模態(tài)的多向映射,實現(xiàn)了跨任務、跨模態(tài)、跨個體的統(tǒng)一通用建模,能夠以單一模型完成多種神經(jīng)科學的下游任務。Brainμ整合了神經(jīng)科學領域多個大型公開數(shù)據(jù)集,以及多個合作實驗室的高質(zhì)量神經(jīng)科學數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號預訓練。目前,智源研究院正與北京生命科學研究所、清華大學、北京大學、復旦大學與強腦科技BrainCO等國內(nèi)前沿機構(gòu)緊密合作,積極拓展Brainμ在科學與工業(yè)領域的應用。?

具身大腦RoboBrain 2.0致力于模仿人類大腦的結(jié)構(gòu)與功能,通過具身智能的方式,有效提升機器人在復雜環(huán)境中的適應能力,助力機器人更好地理解和應對周圍環(huán)境,完成各類復雜任務。全原子微觀生命模型OpenComplex2則將微觀生命的研究與人工智能有機結(jié)合,深入探索生命的基本構(gòu)成和運行機制,為生物醫(yī)學和材料科學等領域提供全新的研究思路和方法。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」