
在當(dāng)今人工智能技術(shù)飛速發(fā)展的時(shí)代,音頻理解領(lǐng)域又迎來了一項(xiàng)重大突破。3月17日,小米技術(shù)官微發(fā)布一則振奮人心的消息:小米大模型團(tuán)隊(duì)在音頻推理領(lǐng)域取得了突破性進(jìn)展。受DeepSeek-R1的啟發(fā),團(tuán)隊(duì)率先將強(qiáng)化學(xué)習(xí)算法創(chuàng)新性地應(yīng)用于多模態(tài)音頻理解任務(wù),僅耗時(shí)一周,便以高達(dá) 64.5%的SOTA(State-of-the-Art,即當(dāng)前最優(yōu))準(zhǔn)確率成功登頂國際權(quán)威的MMAU音頻理解評(píng)測榜首,并且同步將相關(guān)成果開源,引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。?
MMAU(Massive Multi-Task Audio Understanding and Reasoning)評(píng)測集,作為衡量音頻推理能力的量化標(biāo)尺,具有極高的權(quán)威性和挑戰(zhàn)性。它通過一萬條豐富多樣的音頻樣本,這些樣本涵蓋了語音、環(huán)境聲以及音樂等多個(gè)類別,并結(jié)合人類專家精心標(biāo)注的問答對(duì),全面測試模型在27種復(fù)雜技能上的表現(xiàn),包括跨場景推理、專業(yè)知識(shí)運(yùn)用等,期望模型能夠達(dá)到接近人類專家的邏輯分析水平。值得一提的是,人類專家在MMAU上的準(zhǔn)確率為 82.23%,這無疑為眾多模型設(shè)立了一個(gè)高標(biāo)準(zhǔn)。目前,在MMAU官網(wǎng)榜單上,此前表現(xiàn)出色的模型如來自O(shè)penAI 的 GPT-4o,其準(zhǔn)確率為57.3%;緊隨其后的是來自Google DeepMind 的 Gemini 2.0 Flash,準(zhǔn)確率為 55.6%;而來自阿里的 Qwen2-Audio-7B模型在此評(píng)測集上的準(zhǔn)確率為49.2%。
小米大模型團(tuán)隊(duì)的探索之旅并非一帆風(fēng)順。起初,他們嘗試使用清華大學(xué)發(fā)布的AVQA數(shù)據(jù)集對(duì)阿里的Qwen2-Audio-7B模型進(jìn)行微調(diào)。AVQA數(shù)據(jù)集僅包含3.8萬條訓(xùn)練樣本,通過全量有監(jiān)督微調(diào)(SFT),模型在MMAU上的準(zhǔn)確率從49.2%提升到了51.8%,但這一提升效果并不顯著。?
直到DeepSeek-R1的發(fā)布,為團(tuán)隊(duì)的研究帶來了新的曙光。DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,讓模型能夠通過“試錯(cuò)- 獎(jiǎng)勵(lì)” 機(jī)制實(shí)現(xiàn)自主進(jìn)化,進(jìn)而涌現(xiàn)出類似人類的反思、多步驗(yàn)證等推理能力。與此同時(shí),卡內(nèi)基梅隆大學(xué)發(fā)布的論文預(yù)印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning”通過精巧的實(shí)驗(yàn)得出,當(dāng)任務(wù)存在明顯的生成-驗(yàn)證差距(即任務(wù)生成結(jié)果的難度遠(yuǎn)大于驗(yàn)證結(jié)果正確性的難度)時(shí),強(qiáng)化學(xué)習(xí)比起有監(jiān)督微調(diào)具有獨(dú)特優(yōu)勢,而音頻理解任務(wù)恰好符合這一特征。?
基于這些洞察,小米大模型團(tuán)隊(duì)大膽嘗試將DeepSeek-R1的GRPO算法遷移到Qwen2-Audio-7B模型上。令人驚喜的是,在僅使用AVQA的3.8萬條訓(xùn)練樣本的情況下,經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后的模型在MMAU評(píng)測集上實(shí)現(xiàn)了64.5%的準(zhǔn)確率,這一成績比目前榜單上排名第一的商業(yè)閉源模型GPT-4o高出近10個(gè)百分點(diǎn),優(yōu)勢十分明顯。更有趣的是,當(dāng)團(tuán)隊(duì)在訓(xùn)練中強(qiáng)制要求模型輸出推理過程(類似傳統(tǒng)思維鏈方法)時(shí),準(zhǔn)確率反而下降至61.1%。這一現(xiàn)象表明,顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。?
此次小米大模型團(tuán)隊(duì)的實(shí)驗(yàn)揭示了幾個(gè)與傳統(tǒng)認(rèn)知不同的重要結(jié)論:在微調(diào)方法上,強(qiáng)化學(xué)習(xí)在3.8萬條數(shù)據(jù)集上的表現(xiàn)顯著超過監(jiān)督學(xué)習(xí)在57萬條數(shù)據(jù)集上的結(jié)果;在參數(shù)規(guī)模方面,相比千億級(jí)模型,7B參數(shù)的模型通過強(qiáng)化學(xué)習(xí)同樣可展現(xiàn)出強(qiáng)大的推理能力;在隱式推理層面,顯式思維鏈輸出反而成為了性能瓶頸。盡管當(dāng)前模型的準(zhǔn)確率已突破64%,但距離人類專家82%的水平仍存在一定差距。在當(dāng)前的實(shí)驗(yàn)中,強(qiáng)化學(xué)習(xí)策略相對(duì)粗糙,訓(xùn)練過程對(duì)思維鏈的引導(dǎo)也不夠充分,團(tuán)隊(duì)表示會(huì)在后續(xù)研究中進(jìn)一步探索優(yōu)化。?
小米大模型團(tuán)隊(duì)此次成功登頂MMAU音頻理解評(píng)測榜首,不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻推理領(lǐng)域的獨(dú)特價(jià)值,更為后續(xù)的相關(guān)研究開辟了新的方向。當(dāng)機(jī)器不僅能夠 “聽見” 聲音,還能真正 “聽懂” 聲音背后的因果邏輯時(shí),一個(gè)全新的智能聽覺時(shí)代或許將加速來臨。為了促進(jìn)學(xué)術(shù)界和產(chǎn)業(yè)界的交流與合作,小米大模型團(tuán)隊(duì)將訓(xùn)練代碼、模型參數(shù)開源,并提供了詳細(xì)的技術(shù)報(bào)告。








