小米正式開(kāi)源首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio

William — Fri, 19 Sep 2025 16:08:44 +0000

小米正式開(kāi)源其首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio，這一突破性進(jìn)展在語(yǔ)音領(lǐng)域引發(fā)了廣泛關(guān)注。Xiaomi-MiMo-Audio基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)，并借助上億小時(shí)的海量訓(xùn)練數(shù)據(jù)，首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)了基于ICL（In-ContextLearning，上下文學(xué)習(xí)）的少樣本泛化，且在預(yù)訓(xùn)練過(guò)程中觀察到明顯的“涌現(xiàn)”行為。?

五年前，GPT-3通過(guò)自回歸語(yǔ)言模型結(jié)合大規(guī)模無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練，首次展現(xiàn)出ICL能力，開(kāi)啟了人工智能發(fā)展的新篇章。然而，在語(yǔ)音領(lǐng)域，現(xiàn)有大模型仍嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù)，這不僅限制了模型對(duì)新任務(wù)的適應(yīng)能力，也阻礙了其向類(lèi)人智能的邁進(jìn)。Xiaomi-MiMo-Audio的出現(xiàn)，打破了這一瓶頸。?

小米的研究團(tuán)隊(duì)通過(guò)創(chuàng)新的預(yù)訓(xùn)練架構(gòu)，對(duì)海量的語(yǔ)音數(shù)據(jù)進(jìn)行深入挖掘和學(xué)習(xí)。經(jīng)過(guò)上億小時(shí)的訓(xùn)練，該模型在智商、情商、表現(xiàn)力與安全性等跨模態(tài)對(duì)齊能力方面均有顯著提升，尤其在自然度、情感表達(dá)和交互適配等方面達(dá)到了擬人化水準(zhǔn)。這意味著，用戶在與基于該模型的語(yǔ)音交互系統(tǒng)對(duì)話時(shí)，將獲得更加自然、流暢且富有情感的交流體驗(yàn)。?

在具體創(chuàng)新點(diǎn)方面，Xiaomi-MiMo-Audio首次證明，將語(yǔ)音無(wú)損壓縮預(yù)訓(xùn)練Scaling至1億小時(shí)，能夠“涌現(xiàn)”出跨任務(wù)的泛化性，具體表現(xiàn)為Few-ShotLearning（少樣本學(xué)習(xí)）能力。這一發(fā)現(xiàn)為語(yǔ)音模型的訓(xùn)練提供了全新的思路和方法，有望推動(dòng)整個(gè)語(yǔ)音領(lǐng)域的發(fā)展。此外，該模型還是首個(gè)明確語(yǔ)音生成式預(yù)訓(xùn)練的目標(biāo)和定義，并開(kāi)源一套完整語(yǔ)音預(yù)訓(xùn)練方案的模型，其中包括無(wú)損壓縮的Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評(píng)測(cè)體系。這一開(kāi)源舉措，將為全球的科研人員和開(kāi)發(fā)者提供寶貴的資源和參考，促進(jìn)語(yǔ)音技術(shù)的創(chuàng)新和應(yīng)用。
?
目前，小米已在Huggingface平臺(tái)開(kāi)源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型，同時(shí)在Github平臺(tái)開(kāi)源了Tokenizer模型。其參數(shù)量達(dá)1.2B，基于Transformer架構(gòu)，支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。這一開(kāi)源行動(dòng)，將極大地降低開(kāi)發(fā)者進(jìn)入語(yǔ)音模型領(lǐng)域的門(mén)檻，激發(fā)更多創(chuàng)新應(yīng)用的誕生。?

在性能表現(xiàn)上，Xiaomi-MiMo-Audio同樣令人矚目。在通用語(yǔ)音理解及對(duì)話等多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)中，MiMo-Audio大幅超越了同參數(shù)量的開(kāi)源模型，取得7B最佳性能。在音頻理解基準(zhǔn)MMAU的標(biāo)準(zhǔn)測(cè)試集上，MiMo-Audio的表現(xiàn)甚至超過(guò)了Google的閉源語(yǔ)音模型Gemini-2.5-Flash；在面向音頻復(fù)雜推理的基準(zhǔn)BigBenchAudioS2T任務(wù)中，MiMo-Audio也成功超越了OpenAI的閉源語(yǔ)音模型GPT-4o-Audio-Preview。這些優(yōu)異的成績(jī)，充分證明了Xiaomi-MiMo-Audio的強(qiáng)大實(shí)力。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

亚洲情a成黄在线观看动漫尤物,亚洲国产精品久久久久网站

小米正式開(kāi)源首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio