
OPPO研究院與香港科技大學(xué)廣州校區(qū)(港科廣)聯(lián)合宣布推出新型人工智能技術(shù)OThink-MR1。該技術(shù)首次將動態(tài)強化學(xué)習(xí)框架引入多模態(tài)語言模型訓(xùn)練,通過創(chuàng)新的訓(xùn)練策略顯著提升模型在復(fù)雜任務(wù)中的泛化推理能力,為多模態(tài) AI 的實際應(yīng)用開辟了新路徑。
當(dāng)前主流多模態(tài)模型多依賴監(jiān)督微調(diào)(SFT),雖能在特定任務(wù)上表現(xiàn)出色,但面對跨領(lǐng)域推理時往往捉襟見肘。OThink-MR1 技術(shù)創(chuàng)造性地引入動態(tài) KL 散度策略(GRPO-D),通過自適應(yīng)調(diào)整探索與利用的平衡機制,引導(dǎo)模型在訓(xùn)練過程中逐步優(yōu)化決策路徑。這一策略如同為模型配備 “智能導(dǎo)航系統(tǒng)”,既能在初期鼓勵多樣化嘗試,又能在后期聚焦高效解決方案,有效規(guī)避傳統(tǒng)強化學(xué)習(xí)中常見的局部最優(yōu)陷阱。
研究團(tuán)隊同步設(shè)計了雙軌獎勵模型:在視覺計數(shù)、幾何推理等典型任務(wù)中,模型不僅需保證答案準(zhǔn)確性,還需遵循預(yù)設(shè)格式規(guī)范。這種 “雙評分機制” 如同為模型提供多維度反饋,使其在提升推理精度的同時,強化對復(fù)雜任務(wù)格式的適應(yīng)性。
在關(guān)鍵驗證環(huán)節(jié),OThink-MR1 展現(xiàn)出突破性性能:在同任務(wù)驗證中,其GRPO-D方法在視覺計數(shù)與幾何推理任務(wù)上的表現(xiàn)均超越監(jiān)督微調(diào);跨任務(wù)評估更具挑戰(zhàn)性,模型需在理解類任務(wù)(如視覺計數(shù))與推理類任務(wù)(如幾何證明)間自由遷移。實驗數(shù)據(jù)顯示,經(jīng)GRPO-D訓(xùn)練的模型在跨任務(wù)泛化中成績提升顯著,尤其在從理解到推理的高階遷移場景中,其進(jìn)步幅度遠(yuǎn)超傳統(tǒng)方法。
值得關(guān)注的是,研究人員通過調(diào)整獎勵權(quán)重發(fā)現(xiàn),格式規(guī)范的約束能有效提升模型輸出的結(jié)構(gòu)化水平,驗證了雙軌獎勵機制的科學(xué)性。動態(tài)KL散度的參數(shù)優(yōu)化實驗則表明,適度的探索空間控制對模型性能至關(guān)重要。








