小米公司正式宣布發(fā)布并全量開源其自研的聲音理解大模型MiDashengLM-7B。這一舉措在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注,該模型憑借卓越的性能表現(xiàn),在聲音理解方面樹立了新的行業(yè)標(biāo)桿。?
小米官方數(shù)據(jù)顯示,MiDashengLM-7B在聲音理解性能上極為出色,在22個(gè)公開評(píng)測(cè)集中成功刷新了多模態(tài)大模型的最好成績(jī)(SOTA)。其單樣本推理的首Token延遲(TTFT)僅為業(yè)界先進(jìn)模型的1/4,這意味著在處理單個(gè)樣本時(shí),MiDashengLM-7B能夠以更快的速度給出初始響應(yīng),大大提升了用戶交互的實(shí)時(shí)性。同時(shí),在同等顯存條件下,該模型的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上,顯著增強(qiáng)了系統(tǒng)在并發(fā)處理多個(gè)任務(wù)時(shí)的能力,能夠同時(shí)高效處理更多的音頻數(shù)據(jù)請(qǐng)求。?
MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器,以及Qwen2.5-Omni-7BThinker作為自回歸解碼器,并通過(guò)創(chuàng)新的通用音頻描述訓(xùn)練策略,達(dá)成了對(duì)語(yǔ)音、環(huán)境聲音以及音樂(lè)的統(tǒng)一理解。這一創(chuàng)新策略使得模型不再局限于單一類型的聲音識(shí)別,而是能夠綜合分析多種聲音信號(hào),從而更全面、準(zhǔn)確地理解聲音背后的含義。?
回顧2024年,小米發(fā)布的XiaomiDasheng聲音基座模型在國(guó)際上首次突破AudioSet50+mAP,并在HEARBenchmark環(huán)境聲、語(yǔ)音、音樂(lè)三大領(lǐng)域建立起領(lǐng)先優(yōu)勢(shì),這一優(yōu)勢(shì)一直延續(xù)至今。XiaomiDasheng在小米的智能家居和汽車座艙等實(shí)際場(chǎng)景中已擁有超過(guò)30項(xiàng)落地應(yīng)用,如行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個(gè)響指”環(huán)境音關(guān)聯(lián)IoT控制能力,以及小米YU7上搭載的增強(qiáng)哨兵模式劃車檢測(cè)等,這些應(yīng)用的背后都離不開XiaomiDasheng作為核心算法的賦能。而MiDashengLM-7B正是以XiaomiDasheng音頻編碼器為核心組件,是XiaomiDasheng系列模型的重要升級(jí)。?
值得一提的是,MiDashengLM的訓(xùn)練數(shù)據(jù)全部由公開數(shù)據(jù)構(gòu)成,并且模型以寬松的ApacheLicense2.0發(fā)布,這意味著無(wú)論是學(xué)術(shù)研究還是商業(yè)應(yīng)用,開發(fā)者都能夠自由地使用該模型,極大地促進(jìn)了相關(guān)領(lǐng)域的技術(shù)交流與創(chuàng)新發(fā)展。與部分未公開訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型不同,MiDashengLM完整公開了77個(gè)數(shù)據(jù)源的詳細(xì)配比,并在技術(shù)報(bào)告中詳細(xì)闡述了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程,展現(xiàn)出小米在技術(shù)上的開放與透明。?
作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù),MiDashengLM憑借統(tǒng)一理解語(yǔ)音、環(huán)境聲與音樂(lè)的跨領(lǐng)域能力,不僅能夠精準(zhǔn)識(shí)別用戶周圍發(fā)生的事件,還能深入分析其中隱藏的含義,顯著提高了用戶場(chǎng)景理解的泛化性。例如,基于MiDashengLM的模型可以通過(guò)自然語(yǔ)言與用戶交互,為用戶提供更加人性化的溝通和反饋。在用戶練習(xí)唱歌或練習(xí)外語(yǔ)時(shí),模型能夠提供發(fā)音反饋并制定針對(duì)性的提升方案;在用戶駕駛車輛時(shí),也能實(shí)時(shí)解答用戶關(guān)于環(huán)境聲音的提問(wèn)。?