小米發(fā)布并開源MiDashengLM-7B模型，聲音理解性能實(shí)現(xiàn)重大突破

William — Mon, 04 Aug 2025 16:38:45 +0000

小米公司正式宣布發(fā)布并全量開源其自研的聲音理解大模型MiDashengLM-7B。這一舉措在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注，該模型憑借卓越的性能表現(xiàn)，在聲音理解方面樹立了新的行業(yè)標(biāo)桿。?

小米官方數(shù)據(jù)顯示，MiDashengLM-7B在聲音理解性能上極為出色，在22個(gè)公開評(píng)測(cè)集中成功刷新了多模態(tài)大模型的最好成績(jī)（SOTA）。其單樣本推理的首Token延遲（TTFT）僅為業(yè)界先進(jìn)模型的1/4，這意味著在處理單個(gè)樣本時(shí)，MiDashengLM-7B能夠以更快的速度給出初始響應(yīng)，大大提升了用戶交互的實(shí)時(shí)性。同時(shí)，在同等顯存條件下，該模型的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上，顯著增強(qiáng)了系統(tǒng)在并發(fā)處理多個(gè)任務(wù)時(shí)的能力，能夠同時(shí)高效處理更多的音頻數(shù)據(jù)請(qǐng)求。?

MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器，以及Qwen2.5-Omni-7BThinker作為自回歸解碼器，并通過(guò)創(chuàng)新的通用音頻描述訓(xùn)練策略，達(dá)成了對(duì)語(yǔ)音、環(huán)境聲音以及音樂(lè)的統(tǒng)一理解。這一創(chuàng)新策略使得模型不再局限于單一類型的聲音識(shí)別，而是能夠綜合分析多種聲音信號(hào)，從而更全面、準(zhǔn)確地理解聲音背后的含義。?

回顧2024年，小米發(fā)布的XiaomiDasheng聲音基座模型在國(guó)際上首次突破AudioSet50+mAP，并在HEARBenchmark環(huán)境聲、語(yǔ)音、音樂(lè)三大領(lǐng)域建立起領(lǐng)先優(yōu)勢(shì)，這一優(yōu)勢(shì)一直延續(xù)至今。XiaomiDasheng在小米的智能家居和汽車座艙等實(shí)際場(chǎng)景中已擁有超過(guò)30項(xiàng)落地應(yīng)用，如行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個(gè)響指”環(huán)境音關(guān)聯(lián)IoT控制能力，以及小米YU7上搭載的增強(qiáng)哨兵模式劃車檢測(cè)等，這些應(yīng)用的背后都離不開XiaomiDasheng作為核心算法的賦能。而MiDashengLM-7B正是以XiaomiDasheng音頻編碼器為核心組件，是XiaomiDasheng系列模型的重要升級(jí)。?

值得一提的是，MiDashengLM的訓(xùn)練數(shù)據(jù)全部由公開數(shù)據(jù)構(gòu)成，并且模型以寬松的ApacheLicense2.0發(fā)布，這意味著無(wú)論是學(xué)術(shù)研究還是商業(yè)應(yīng)用，開發(fā)者都能夠自由地使用該模型，極大地促進(jìn)了相關(guān)領(lǐng)域的技術(shù)交流與創(chuàng)新發(fā)展。與部分未公開訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型不同，MiDashengLM完整公開了77個(gè)數(shù)據(jù)源的詳細(xì)配比，并在技術(shù)報(bào)告中詳細(xì)闡述了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程，展現(xiàn)出小米在技術(shù)上的開放與透明。?

作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù)，MiDashengLM憑借統(tǒng)一理解語(yǔ)音、環(huán)境聲與音樂(lè)的跨領(lǐng)域能力，不僅能夠精準(zhǔn)識(shí)別用戶周圍發(fā)生的事件，還能深入分析其中隱藏的含義，顯著提高了用戶場(chǎng)景理解的泛化性。例如，基于MiDashengLM的模型可以通過(guò)自然語(yǔ)言與用戶交互，為用戶提供更加人性化的溝通和反饋。在用戶練習(xí)唱歌或練習(xí)外語(yǔ)時(shí)，模型能夠提供發(fā)音反饋并制定針對(duì)性的提升方案；在用戶駕駛車輛時(shí)，也能實(shí)時(shí)解答用戶關(guān)于環(huán)境聲音的提問(wèn)。?

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

真人性囗交视频,亚洲成av人片一区二区小说

小米發(fā)布并開源MiDashengLM-7B模型，聲音理解性能實(shí)現(xiàn)重大突破

小米發(fā)布并開源MiDashengLM-7B模型，聲音理解性能實(shí)現(xiàn)重大突破