小米正式開(kāi)源其首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio,這一突破性進(jìn)展在語(yǔ)音領(lǐng)域引發(fā)了廣泛關(guān)注。Xiaomi-MiMo-Audio基于創(chuàng)新預(yù)訓(xùn)練架構(gòu),并借助上億小時(shí)的海量訓(xùn)練數(shù)據(jù),首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)了基于ICL(In-ContextLearning,上下文學(xué)習(xí))的少樣本泛化,且在預(yù)訓(xùn)練過(guò)程中觀察到明顯的“涌現(xiàn)”行為。?
五年前,GPT-3通過(guò)自回歸語(yǔ)言模型結(jié)合大規(guī)模無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練,首次展現(xiàn)出ICL能力,開(kāi)啟了人工智能發(fā)展的新篇章。然而,在語(yǔ)音領(lǐng)域,現(xiàn)有大模型仍嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù),這不僅限制了模型對(duì)新任務(wù)的適應(yīng)能力,也阻礙了其向類(lèi)人智能的邁進(jìn)。Xiaomi-MiMo-Audio的出現(xiàn),打破了這一瓶頸。?
小米的研究團(tuán)隊(duì)通過(guò)創(chuàng)新的預(yù)訓(xùn)練架構(gòu),對(duì)海量的語(yǔ)音數(shù)據(jù)進(jìn)行深入挖掘和學(xué)習(xí)。經(jīng)過(guò)上億小時(shí)的訓(xùn)練,該模型在智商、情商、表現(xiàn)力與安全性等跨模態(tài)對(duì)齊能力方面均有顯著提升,尤其在自然度、情感表達(dá)和交互適配等方面達(dá)到了擬人化水準(zhǔn)。這意味著,用戶在與基于該模型的語(yǔ)音交互系統(tǒng)對(duì)話時(shí),將獲得更加自然、流暢且富有情感的交流體驗(yàn)。?
在具體創(chuàng)新點(diǎn)方面,Xiaomi-MiMo-Audio首次證明,將語(yǔ)音無(wú)損壓縮預(yù)訓(xùn)練Scaling至1億小時(shí),能夠“涌現(xiàn)”出跨任務(wù)的泛化性,具體表現(xiàn)為Few-ShotLearning(少樣本學(xué)習(xí))能力。這一發(fā)現(xiàn)為語(yǔ)音模型的訓(xùn)練提供了全新的思路和方法,有望推動(dòng)整個(gè)語(yǔ)音領(lǐng)域的發(fā)展。此外,該模型還是首個(gè)明確語(yǔ)音生成式預(yù)訓(xùn)練的目標(biāo)和定義,并開(kāi)源一套完整語(yǔ)音預(yù)訓(xùn)練方案的模型,其中包括無(wú)損壓縮的Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評(píng)測(cè)體系。這一開(kāi)源舉措,將為全球的科研人員和開(kāi)發(fā)者提供寶貴的資源和參考,促進(jìn)語(yǔ)音技術(shù)的創(chuàng)新和應(yīng)用。
?
目前,小米已在Huggingface平臺(tái)開(kāi)源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型,同時(shí)在Github平臺(tái)開(kāi)源了Tokenizer模型。其參數(shù)量達(dá)1.2B,基于Transformer架構(gòu),支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。這一開(kāi)源行動(dòng),將極大地降低開(kāi)發(fā)者進(jìn)入語(yǔ)音模型領(lǐng)域的門(mén)檻,激發(fā)更多創(chuàng)新應(yīng)用的誕生。?
在性能表現(xiàn)上,Xiaomi-MiMo-Audio同樣令人矚目。在通用語(yǔ)音理解及對(duì)話等多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)中,MiMo-Audio大幅超越了同參數(shù)量的開(kāi)源模型,取得7B最佳性能。在音頻理解基準(zhǔn)MMAU的標(biāo)準(zhǔn)測(cè)試集上,MiMo-Audio的表現(xiàn)甚至超過(guò)了Google的閉源語(yǔ)音模型Gemini-2.5-Flash;在面向音頻復(fù)雜推理的基準(zhǔn)BigBenchAudioS2T任務(wù)中,MiMo-Audio也成功超越了OpenAI的閉源語(yǔ)音模型GPT-4o-Audio-Preview。這些優(yōu)異的成績(jī),充分證明了Xiaomi-MiMo-Audio的強(qiáng)大實(shí)力。