亚洲情a成黄在线观看动漫尤物,亚洲国产精品久久久久网站 http://pinmang.cn 93913成立于2015年9月13日,是目前國(guó)內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過(guò)93913為用戶提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會(huì)、開(kāi)發(fā)者大賽、連接商業(yè)項(xiàng)目以及FA投融資顧問(wèn)等服務(wù)。 Fri, 19 Sep 2025 16:08:44 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 小米正式開(kāi)源首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio http://pinmang.cn/114752.html http://pinmang.cn/114752.html#respond Fri, 19 Sep 2025 16:08:44 +0000 http://pinmang.cn/?p=114752

小米正式開(kāi)源其首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio,這一突破性進(jìn)展在語(yǔ)音領(lǐng)域引發(fā)了廣泛關(guān)注。Xiaomi-MiMo-Audio基于創(chuàng)新預(yù)訓(xùn)練架構(gòu),并借助上億小時(shí)的海量訓(xùn)練數(shù)據(jù),首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)了基于ICL(In-ContextLearning,上下文學(xué)習(xí))的少樣本泛化,且在預(yù)訓(xùn)練過(guò)程中觀察到明顯的“涌現(xiàn)”行為。?

五年前,GPT-3通過(guò)自回歸語(yǔ)言模型結(jié)合大規(guī)模無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練,首次展現(xiàn)出ICL能力,開(kāi)啟了人工智能發(fā)展的新篇章。然而,在語(yǔ)音領(lǐng)域,現(xiàn)有大模型仍嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù),這不僅限制了模型對(duì)新任務(wù)的適應(yīng)能力,也阻礙了其向類(lèi)人智能的邁進(jìn)。Xiaomi-MiMo-Audio的出現(xiàn),打破了這一瓶頸。?

小米的研究團(tuán)隊(duì)通過(guò)創(chuàng)新的預(yù)訓(xùn)練架構(gòu),對(duì)海量的語(yǔ)音數(shù)據(jù)進(jìn)行深入挖掘和學(xué)習(xí)。經(jīng)過(guò)上億小時(shí)的訓(xùn)練,該模型在智商、情商、表現(xiàn)力與安全性等跨模態(tài)對(duì)齊能力方面均有顯著提升,尤其在自然度、情感表達(dá)和交互適配等方面達(dá)到了擬人化水準(zhǔn)。這意味著,用戶在與基于該模型的語(yǔ)音交互系統(tǒng)對(duì)話時(shí),將獲得更加自然、流暢且富有情感的交流體驗(yàn)。?

在具體創(chuàng)新點(diǎn)方面,Xiaomi-MiMo-Audio首次證明,將語(yǔ)音無(wú)損壓縮預(yù)訓(xùn)練Scaling至1億小時(shí),能夠“涌現(xiàn)”出跨任務(wù)的泛化性,具體表現(xiàn)為Few-ShotLearning(少樣本學(xué)習(xí))能力。這一發(fā)現(xiàn)為語(yǔ)音模型的訓(xùn)練提供了全新的思路和方法,有望推動(dòng)整個(gè)語(yǔ)音領(lǐng)域的發(fā)展。此外,該模型還是首個(gè)明確語(yǔ)音生成式預(yù)訓(xùn)練的目標(biāo)和定義,并開(kāi)源一套完整語(yǔ)音預(yù)訓(xùn)練方案的模型,其中包括無(wú)損壓縮的Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評(píng)測(cè)體系。這一開(kāi)源舉措,將為全球的科研人員和開(kāi)發(fā)者提供寶貴的資源和參考,促進(jìn)語(yǔ)音技術(shù)的創(chuàng)新和應(yīng)用。
?
目前,小米已在Huggingface平臺(tái)開(kāi)源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型,同時(shí)在Github平臺(tái)開(kāi)源了Tokenizer模型。其參數(shù)量達(dá)1.2B,基于Transformer架構(gòu),支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。這一開(kāi)源行動(dòng),將極大地降低開(kāi)發(fā)者進(jìn)入語(yǔ)音模型領(lǐng)域的門(mén)檻,激發(fā)更多創(chuàng)新應(yīng)用的誕生。?

在性能表現(xiàn)上,Xiaomi-MiMo-Audio同樣令人矚目。在通用語(yǔ)音理解及對(duì)話等多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)中,MiMo-Audio大幅超越了同參數(shù)量的開(kāi)源模型,取得7B最佳性能。在音頻理解基準(zhǔn)MMAU的標(biāo)準(zhǔn)測(cè)試集上,MiMo-Audio的表現(xiàn)甚至超過(guò)了Google的閉源語(yǔ)音模型Gemini-2.5-Flash;在面向音頻復(fù)雜推理的基準(zhǔn)BigBenchAudioS2T任務(wù)中,MiMo-Audio也成功超越了OpenAI的閉源語(yǔ)音模型GPT-4o-Audio-Preview。這些優(yōu)異的成績(jī),充分證明了Xiaomi-MiMo-Audio的強(qiáng)大實(shí)力。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」
]]>
http://pinmang.cn/114752.html/feed 0