
小米正式開源其首個原生端到端語音模型——Xiaomi-MiMo-Audio,這一突破性進展在語音領(lǐng)域引發(fā)了廣泛關(guān)注。Xiaomi-MiMo-Audio基于創(chuàng)新預(yù)訓(xùn)練架構(gòu),并借助上億小時的海量訓(xùn)練數(shù)據(jù),首次在語音領(lǐng)域?qū)崿F(xiàn)了基于ICL(In-ContextLearning,上下文學(xué)習(xí))的少樣本泛化,且在預(yù)訓(xùn)練過程中觀察到明顯的“涌現(xiàn)”行為。?
五年前,GPT-3通過自回歸語言模型結(jié)合大規(guī)模無標(biāo)注數(shù)據(jù)訓(xùn)練,首次展現(xiàn)出ICL能力,開啟了人工智能發(fā)展的新篇章。然而,在語音領(lǐng)域,現(xiàn)有大模型仍嚴重依賴大規(guī)模標(biāo)注數(shù)據(jù),這不僅限制了模型對新任務(wù)的適應(yīng)能力,也阻礙了其向類人智能的邁進。Xiaomi-MiMo-Audio的出現(xiàn),打破了這一瓶頸。?
小米的研究團隊通過創(chuàng)新的預(yù)訓(xùn)練架構(gòu),對海量的語音數(shù)據(jù)進行深入挖掘和學(xué)習(xí)。經(jīng)過上億小時的訓(xùn)練,該模型在智商、情商、表現(xiàn)力與安全性等跨模態(tài)對齊能力方面均有顯著提升,尤其在自然度、情感表達和交互適配等方面達到了擬人化水準(zhǔn)。這意味著,用戶在與基于該模型的語音交互系統(tǒng)對話時,將獲得更加自然、流暢且富有情感的交流體驗。?
在具體創(chuàng)新點方面,Xiaomi-MiMo-Audio首次證明,將語音無損壓縮預(yù)訓(xùn)練Scaling至1億小時,能夠“涌現(xiàn)”出跨任務(wù)的泛化性,具體表現(xiàn)為Few-ShotLearning(少樣本學(xué)習(xí))能力。這一發(fā)現(xiàn)為語音模型的訓(xùn)練提供了全新的思路和方法,有望推動整個語音領(lǐng)域的發(fā)展。此外,該模型還是首個明確語音生成式預(yù)訓(xùn)練的目標(biāo)和定義,并開源一套完整語音預(yù)訓(xùn)練方案的模型,其中包括無損壓縮的Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評測體系。這一開源舉措,將為全球的科研人員和開發(fā)者提供寶貴的資源和參考,促進語音技術(shù)的創(chuàng)新和應(yīng)用。
?
目前,小米已在Huggingface平臺開源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型,同時在Github平臺開源了Tokenizer模型。其參數(shù)量達1.2B,基于Transformer架構(gòu),支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。這一開源行動,將極大地降低開發(fā)者進入語音模型領(lǐng)域的門檻,激發(fā)更多創(chuàng)新應(yīng)用的誕生。?
在性能表現(xiàn)上,Xiaomi-MiMo-Audio同樣令人矚目。在通用語音理解及對話等多項標(biāo)準(zhǔn)評測基準(zhǔn)中,MiMo-Audio大幅超越了同參數(shù)量的開源模型,取得7B最佳性能。在音頻理解基準(zhǔn)MMAU的標(biāo)準(zhǔn)測試集上,MiMo-Audio的表現(xiàn)甚至超過了Google的閉源語音模型Gemini-2.5-Flash;在面向音頻復(fù)雜推理的基準(zhǔn)BigBenchAudioS2T任務(wù)中,MiMo-Audio也成功超越了OpenAI的閉源語音模型GPT-4o-Audio-Preview。這些優(yōu)異的成績,充分證明了Xiaomi-MiMo-Audio的強大實力。








