OPPO研究院與香港科技大學廣州校區(qū)(港科廣)聯(lián)合宣布推出新型人工智能技術(shù)OThink-MR1。該技術(shù)首次將動態(tài)強化學習框架引入多模態(tài)語言模型訓練,通過創(chuàng)新的訓練策略顯著提升模型在復雜任務中的泛化推理能力,為多模態(tài) AI 的實際應用開辟了新路徑。
當前主流多模態(tài)模型多依賴監(jiān)督微調(diào)(SFT),雖能在特定任務上表現(xiàn)出色,但面對跨領(lǐng)域推理時往往捉襟見肘。OThink-MR1 技術(shù)創(chuàng)造性地引入動態(tài) KL 散度策略(GRPO-D),通過自適應調(diào)整探索與利用的平衡機制,引導模型在訓練過程中逐步優(yōu)化決策路徑。這一策略如同為模型配備 “智能導航系統(tǒng)”,既能在初期鼓勵多樣化嘗試,又能在后期聚焦高效解決方案,有效規(guī)避傳統(tǒng)強化學習中常見的局部最優(yōu)陷阱。
研究團隊同步設計了雙軌獎勵模型:在視覺計數(shù)、幾何推理等典型任務中,模型不僅需保證答案準確性,還需遵循預設格式規(guī)范。這種 “雙評分機制” 如同為模型提供多維度反饋,使其在提升推理精度的同時,強化對復雜任務格式的適應性。
在關(guān)鍵驗證環(huán)節(jié),OThink-MR1 展現(xiàn)出突破性性能:在同任務驗證中,其GRPO-D方法在視覺計數(shù)與幾何推理任務上的表現(xiàn)均超越監(jiān)督微調(diào);跨任務評估更具挑戰(zhàn)性,模型需在理解類任務(如視覺計數(shù))與推理類任務(如幾何證明)間自由遷移。實驗數(shù)據(jù)顯示,經(jīng)GRPO-D訓練的模型在跨任務泛化中成績提升顯著,尤其在從理解到推理的高階遷移場景中,其進步幅度遠超傳統(tǒng)方法。
值得關(guān)注的是,研究人員通過調(diào)整獎勵權(quán)重發(fā)現(xiàn),格式規(guī)范的約束能有效提升模型輸出的結(jié)構(gòu)化水平,驗證了雙軌獎勵機制的科學性。動態(tài)KL散度的參數(shù)優(yōu)化實驗則表明,適度的探索空間控制對模型性能至關(guān)重要。