综合色区亚洲熟妇另类,中文天堂 http://pinmang.cn 93913成立于2015年9月13日,是目前國內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過93913為用戶提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務(wù)。 Fri, 17 Oct 2025 16:21:22 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 小米北大提出R3方法:終結(jié)MoE模型強化學習崩盤,訓練推理對齊度提升50% http://pinmang.cn/115765.html http://pinmang.cn/115765.html#respond Fri, 17 Oct 2025 16:21:22 +0000 http://pinmang.cn/?p=115765

小米集團與北京大學聯(lián)合在arXiv平臺發(fā)表重磅論文,以“95后AI天才少女”羅福莉為通訊作者之一的研究團隊,提出名為Rollout Routing Replay(R3)的創(chuàng)新性方法,成功攻克混合專家(MoE)模型在強化學習(RL)訓練中的穩(wěn)定性難題。這一突破不僅為大模型性能提升掃清關(guān)鍵障礙,更標志著國內(nèi)產(chǎn)學研結(jié)合在AI基礎(chǔ)研究領(lǐng)域的重要進展。?

MoE架構(gòu)作為大模型規(guī)模化的核心基石,通過門控網(wǎng)絡(luò)對每個token稀疏激活部分專家參數(shù),實現(xiàn)了模型容量與推理成本的解耦。然而,當強化學習——這一提升大模型復(fù)雜推理能力的關(guān)鍵技術(shù)——與MoE結(jié)合時,路由機制引發(fā)的“訓練-推理錯配”成為行業(yè)頑疾。?

“問題本質(zhì)是路徑錯亂而非優(yōu)化不足?!闭撐闹赋?,MoE的路由選擇具有離散不確定性,且訓練與推理引擎的計算差異會導(dǎo)致同一輸入激活不同專家集合,這種偏差在強化學習循環(huán)中被指數(shù)級放大,最終引發(fā)訓練崩盤:損失曲線劇烈振蕩、獎勵突然塌陷、輸出長度異常。此前GSPO的序列級采樣、TIS的token級修正等方法,在稠密模型中效果顯著,卻無法解決MoE的結(jié)構(gòu)性矛盾。實驗顯示,未優(yōu)化的MoE模型訓練-推理KL散度高達1.5×10?3,是稠密模型的兩倍多。?

研究團隊跳出“優(yōu)化器修修補補”的傳統(tǒng)思路,提出“記錄推理路由,回放訓練過程”的核心解決方案:?

推理端捕獲:在序列生成期間,從推理引擎實時記錄每層、每個token的專家路由掩碼(Top-Kmask);?

訓練端回放:將捕獲的路由掩碼直接重用于訓練前向傳播,同時保留訓練邏輯的softmax計算以維持梯度流;?

工程優(yōu)化:通過路由掩碼緩存機制與KVCache無縫集成,相同前綴token可直接復(fù)用掩碼,在多輪對話的Agent場景中幾乎不增加計算開銷,訓練速度保持在原速97%以上。?

“這種設(shè)計實現(xiàn)了雙重目標:既讓訓練時的專家選擇與推理完全對齊,又確保梯度能有效流回路由器?!绷_福莉團隊解釋,這從根本上消除了路由層級、token層級、序列層級的三重錯配。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」
]]>
http://pinmang.cn/115765.html/feed 0