
小米公司正式宣布發(fā)布并全量開源其自研的聲音理解大模型MiDashengLM-7B。這一舉措在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注,該模型憑借卓越的性能表現(xiàn),在聲音理解方面樹立了新的行業(yè)標(biāo)桿。?
小米官方數(shù)據(jù)顯示,MiDashengLM-7B在聲音理解性能上極為出色,在22個公開評測集中成功刷新了多模態(tài)大模型的最好成績(SOTA)。其單樣本推理的首Token延遲(TTFT)僅為業(yè)界先進(jìn)模型的1/4,這意味著在處理單個樣本時,MiDashengLM-7B能夠以更快的速度給出初始響應(yīng),大大提升了用戶交互的實時性。同時,在同等顯存條件下,該模型的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上,顯著增強(qiáng)了系統(tǒng)在并發(fā)處理多個任務(wù)時的能力,能夠同時高效處理更多的音頻數(shù)據(jù)請求。?
MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器,以及Qwen2.5-Omni-7BThinker作為自回歸解碼器,并通過創(chuàng)新的通用音頻描述訓(xùn)練策略,達(dá)成了對語音、環(huán)境聲音以及音樂的統(tǒng)一理解。這一創(chuàng)新策略使得模型不再局限于單一類型的聲音識別,而是能夠綜合分析多種聲音信號,從而更全面、準(zhǔn)確地理解聲音背后的含義。?
回顧2024年,小米發(fā)布的XiaomiDasheng聲音基座模型在國際上首次突破AudioSet50+mAP,并在HEARBenchmark環(huán)境聲、語音、音樂三大領(lǐng)域建立起領(lǐng)先優(yōu)勢,這一優(yōu)勢一直延續(xù)至今。XiaomiDasheng在小米的智能家居和汽車座艙等實際場景中已擁有超過30項落地應(yīng)用,如行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個響指”環(huán)境音關(guān)聯(lián)IoT控制能力,以及小米YU7上搭載的增強(qiáng)哨兵模式劃車檢測等,這些應(yīng)用的背后都離不開XiaomiDasheng作為核心算法的賦能。而MiDashengLM-7B正是以XiaomiDasheng音頻編碼器為核心組件,是XiaomiDasheng系列模型的重要升級。?
值得一提的是,MiDashengLM的訓(xùn)練數(shù)據(jù)全部由公開數(shù)據(jù)構(gòu)成,并且模型以寬松的ApacheLicense2.0發(fā)布,這意味著無論是學(xué)術(shù)研究還是商業(yè)應(yīng)用,開發(fā)者都能夠自由地使用該模型,極大地促進(jìn)了相關(guān)領(lǐng)域的技術(shù)交流與創(chuàng)新發(fā)展。與部分未公開訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型不同,MiDashengLM完整公開了77個數(shù)據(jù)源的詳細(xì)配比,并在技術(shù)報告中詳細(xì)闡述了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程,展現(xiàn)出小米在技術(shù)上的開放與透明。?
作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù),MiDashengLM憑借統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力,不僅能夠精準(zhǔn)識別用戶周圍發(fā)生的事件,還能深入分析其中隱藏的含義,顯著提高了用戶場景理解的泛化性。例如,基于MiDashengLM的模型可以通過自然語言與用戶交互,為用戶提供更加人性化的溝通和反饋。在用戶練習(xí)唱歌或練習(xí)外語時,模型能夠提供發(fā)音反饋并制定針對性的提升方案;在用戶駕駛車輛時,也能實時解答用戶關(guān)于環(huán)境聲音的提問。?








