
小米集團(tuán)與北京大學(xué)聯(lián)合在arXiv平臺(tái)發(fā)表重磅論文,以“95后AI天才少女”羅福莉?yàn)橥ㄓ嵶髡咧坏难芯繄F(tuán)隊(duì),提出名為Rollout Routing Replay(R3)的創(chuàng)新性方法,成功攻克混合專家(MoE)模型在強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練中的穩(wěn)定性難題。這一突破不僅為大模型性能提升掃清關(guān)鍵障礙,更標(biāo)志著國內(nèi)產(chǎn)學(xué)研結(jié)合在AI基礎(chǔ)研究領(lǐng)域的重要進(jìn)展。?
MoE架構(gòu)作為大模型規(guī)?;暮诵幕?,通過門控網(wǎng)絡(luò)對(duì)每個(gè)token稀疏激活部分專家參數(shù),實(shí)現(xiàn)了模型容量與推理成本的解耦。然而,當(dāng)強(qiáng)化學(xué)習(xí)——這一提升大模型復(fù)雜推理能力的關(guān)鍵技術(shù)——與MoE結(jié)合時(shí),路由機(jī)制引發(fā)的“訓(xùn)練-推理錯(cuò)配”成為行業(yè)頑疾。?
“問題本質(zhì)是路徑錯(cuò)亂而非優(yōu)化不足?!闭撐闹赋觯琈oE的路由選擇具有離散不確定性,且訓(xùn)練與推理引擎的計(jì)算差異會(huì)導(dǎo)致同一輸入激活不同專家集合,這種偏差在強(qiáng)化學(xué)習(xí)循環(huán)中被指數(shù)級(jí)放大,最終引發(fā)訓(xùn)練崩盤:損失曲線劇烈振蕩、獎(jiǎng)勵(lì)突然塌陷、輸出長度異常。此前GSPO的序列級(jí)采樣、TIS的token級(jí)修正等方法,在稠密模型中效果顯著,卻無法解決MoE的結(jié)構(gòu)性矛盾。實(shí)驗(yàn)顯示,未優(yōu)化的MoE模型訓(xùn)練-推理KL散度高達(dá)1.5×10?3,是稠密模型的兩倍多。?
研究團(tuán)隊(duì)跳出“優(yōu)化器修修補(bǔ)補(bǔ)”的傳統(tǒng)思路,提出“記錄推理路由,回放訓(xùn)練過程”的核心解決方案:?
推理端捕獲:在序列生成期間,從推理引擎實(shí)時(shí)記錄每層、每個(gè)token的專家路由掩碼(Top-Kmask);?
訓(xùn)練端回放:將捕獲的路由掩碼直接重用于訓(xùn)練前向傳播,同時(shí)保留訓(xùn)練邏輯的softmax計(jì)算以維持梯度流;?
工程優(yōu)化:通過路由掩碼緩存機(jī)制與KVCache無縫集成,相同前綴token可直接復(fù)用掩碼,在多輪對(duì)話的Agent場景中幾乎不增加計(jì)算開銷,訓(xùn)練速度保持在原速97%以上。?
“這種設(shè)計(jì)實(shí)現(xiàn)了雙重目標(biāo):既讓訓(xùn)練時(shí)的專家選擇與推理完全對(duì)齊,又確保梯度能有效流回路由器?!绷_福莉團(tuán)隊(duì)解釋,這從根本上消除了路由層級(jí)、token層級(jí)、序列層級(jí)的三重錯(cuò)配。








