小米重磅開源!7B參數(shù)MiMo大模型實(shí)力超越OpenAI o1 – mini

?? 由 文心大模型 生成的文章摘要

小米通過“Xiaomi MiMo”公眾號宣布,正式開源其首個(gè)“為推理而生”大模型——Xiaomi MiMo。該模型在數(shù)學(xué)推理和代碼競賽公開測評集中展現(xiàn)出卓越性能,以僅7B的參數(shù)規(guī)模,成功超越OpenAI的閉源推理模o1-mini,以及阿里Qwen更大規(guī)模開源推理模型QwQ-32B-Preview。

MiMo由新成立的“小米大模型Core團(tuán)隊(duì)”開發(fā),旨在通過整合預(yù)訓(xùn)練與后訓(xùn)練技術(shù),全面提升模型的推理能力。官方表示,MiMo的出色表現(xiàn)得益于多方面的創(chuàng)新,包括數(shù)據(jù)處理和算法優(yōu)化。在預(yù)訓(xùn)練階段,團(tuán)隊(duì)著重挖掘豐富的推理語料,并合成了約200B tokens的推理數(shù)據(jù),通過三階段訓(xùn)練策略,逐步提升訓(xùn)練難度,總訓(xùn)練量達(dá)到25T tokens。?

后訓(xùn)練階段則采用了高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法,團(tuán)隊(duì)提出Test Difficulty Driven Reward策略,有效解決了獎(jiǎng)勵(lì)稀疏問題,并引入Easy Data Re – Sampling策略,進(jìn)一步穩(wěn)定RL訓(xùn)練。此外,團(tuán)隊(duì)設(shè)計(jì)的Seamless Rollout系統(tǒng)使RL訓(xùn)練速度提升了2.29倍,驗(yàn)證速度提升1.96倍。?

在實(shí)際應(yīng)用中,MiMo在數(shù)學(xué)推理(AIME 24 – 25)和代碼競賽(LiveCodeBench v5)公開測評集中的表現(xiàn)尤為突出,展現(xiàn)了其強(qiáng)大的推理能力。這不僅為研究人員和開發(fā)者提供了新的工具,也預(yù)示著小米在AI領(lǐng)域的技術(shù)實(shí)力正不斷增強(qiáng)。?

小米此次開源Xiaomi MiMo,將進(jìn)一步推動(dòng)行業(yè)技術(shù)的發(fā)展,為AI領(lǐng)域注入新的活力。感興趣的開發(fā)者可通過HuggingFace獲取開源代碼,技術(shù)報(bào)告也可在GitHub上查閱。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」