小米發(fā)布并開源MiDashengLM-7B模型，聲音理解性能實現(xiàn)重大突破

William2025年8月5日 · 大模型 ·

?? 由文心大模型生成的文章摘要

小米公司正式宣布發(fā)布并全量開源其自研的聲音理解大模型MiDashengLM-7B。這一舉措在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注，該模型憑借卓越的性能表現(xiàn)，在聲音理解方面樹立了新的行業(yè)標(biāo)桿。?

小米官方數(shù)據(jù)顯示，MiDashengLM-7B在聲音理解性能上極為出色，在22個公開評測集中成功刷新了多模態(tài)大模型的最好成績（SOTA）。其單樣本推理的首Token延遲（TTFT）僅為業(yè)界先進(jìn)模型的1/4，這意味著在處理單個樣本時，MiDashengLM-7B能夠以更快的速度給出初始響應(yīng)，大大提升了用戶交互的實時性。同時，在同等顯存條件下，該模型的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上，顯著增強(qiáng)了系統(tǒng)在并發(fā)處理多個任務(wù)時的能力，能夠同時高效處理更多的音頻數(shù)據(jù)請求。?

MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器，以及Qwen2.5-Omni-7BThinker作為自回歸解碼器，并通過創(chuàng)新的通用音頻描述訓(xùn)練策略，達(dá)成了對語音、環(huán)境聲音以及音樂的統(tǒng)一理解。這一創(chuàng)新策略使得模型不再局限于單一類型的聲音識別，而是能夠綜合分析多種聲音信號，從而更全面、準(zhǔn)確地理解聲音背后的含義。?

回顧2024年，小米發(fā)布的XiaomiDasheng聲音基座模型在國際上首次突破AudioSet50+mAP，并在HEARBenchmark環(huán)境聲、語音、音樂三大領(lǐng)域建立起領(lǐng)先優(yōu)勢，這一優(yōu)勢一直延續(xù)至今。XiaomiDasheng在小米的智能家居和汽車座艙等實際場景中已擁有超過30項落地應(yīng)用，如行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個響指”環(huán)境音關(guān)聯(lián)IoT控制能力，以及小米YU7上搭載的增強(qiáng)哨兵模式劃車檢測等，這些應(yīng)用的背后都離不開XiaomiDasheng作為核心算法的賦能。而MiDashengLM-7B正是以XiaomiDasheng音頻編碼器為核心組件，是XiaomiDasheng系列模型的重要升級。?

值得一提的是，MiDashengLM的訓(xùn)練數(shù)據(jù)全部由公開數(shù)據(jù)構(gòu)成，并且模型以寬松的ApacheLicense2.0發(fā)布，這意味著無論是學(xué)術(shù)研究還是商業(yè)應(yīng)用，開發(fā)者都能夠自由地使用該模型，極大地促進(jìn)了相關(guān)領(lǐng)域的技術(shù)交流與創(chuàng)新發(fā)展。與部分未公開訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型不同，MiDashengLM完整公開了77個數(shù)據(jù)源的詳細(xì)配比，并在技術(shù)報告中詳細(xì)闡述了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程，展現(xiàn)出小米在技術(shù)上的開放與透明。?

作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù)，MiDashengLM憑借統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力，不僅能夠精準(zhǔn)識別用戶周圍發(fā)生的事件，還能深入分析其中隱藏的含義，顯著提高了用戶場景理解的泛化性。例如，基于MiDashengLM的模型可以通過自然語言與用戶交互，為用戶提供更加人性化的溝通和反饋。在用戶練習(xí)唱歌或練習(xí)外語時，模型能夠提供發(fā)音反饋并制定針對性的提升方案；在用戶駕駛車輛時，也能實時解答用戶關(guān)于環(huán)境聲音的提問。?

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標(biāo)簽:

MiDashengLM-7B模型

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

小米發(fā)布并開源MiDashengLM-7B模型，聲音理解性能實現(xiàn)重大突破

相關(guān)文章

百度計劃今年下半年發(fā)布下一代人工智能模型

“悟空AI”助力神舟二十號，中國空間站智能化應(yīng)用取得新突破

谷歌希望今年年底前擁有5億Gemini AI用戶

軟銀首席執(zhí)行官孫正義稱人工智能幾年后將具備人類水平的能力

OpenAI推出原生多模態(tài)圖像生成模型API，賦能開發(fā)者創(chuàng)新

阿里通義千問團(tuán)隊發(fā)布全新多模態(tài)大模型Qwen2.5 – Omni

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)

AI應(yīng)用推薦

熱門

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)