OPPO研究院聯(lián)合港科廣發(fā)布OThink-MR1技術(shù) 突破多模態(tài)模型

William — Sun, 30 Mar 2025 16:09:37 +0000

OPPO研究院與香港科技大學廣州校區(qū)（港科廣）聯(lián)合宣布推出新型人工智能技術(shù)OThink-MR1。該技術(shù)首次將動態(tài)強化學習框架引入多模態(tài)語言模型訓練，通過創(chuàng)新的訓練策略顯著提升模型在復雜任務中的泛化推理能力，為多模態(tài) AI 的實際應用開辟了新路徑。

當前主流多模態(tài)模型多依賴監(jiān)督微調(diào)（SFT），雖能在特定任務上表現(xiàn)出色，但面對跨領(lǐng)域推理時往往捉襟見肘。OThink-MR1 技術(shù)創(chuàng)造性地引入動態(tài) KL 散度策略（GRPO-D），通過自適應調(diào)整探索與利用的平衡機制，引導模型在訓練過程中逐步優(yōu)化決策路徑。這一策略如同為模型配備 “智能導航系統(tǒng)”，既能在初期鼓勵多樣化嘗試，又能在后期聚焦高效解決方案，有效規(guī)避傳統(tǒng)強化學習中常見的局部最優(yōu)陷阱。

研究團隊同步設計了雙軌獎勵模型：在視覺計數(shù)、幾何推理等典型任務中，模型不僅需保證答案準確性，還需遵循預設格式規(guī)范。這種 “雙評分機制” 如同為模型提供多維度反饋，使其在提升推理精度的同時，強化對復雜任務格式的適應性。

在關(guān)鍵驗證環(huán)節(jié)，OThink-MR1 展現(xiàn)出突破性性能：在同任務驗證中，其GRPO-D方法在視覺計數(shù)與幾何推理任務上的表現(xiàn)均超越監(jiān)督微調(diào)；跨任務評估更具挑戰(zhàn)性，模型需在理解類任務（如視覺計數(shù)）與推理類任務（如幾何證明）間自由遷移。實驗數(shù)據(jù)顯示，經(jīng)GRPO-D訓練的模型在跨任務泛化中成績提升顯著，尤其在從理解到推理的高階遷移場景中，其進步幅度遠超傳統(tǒng)方法。

值得關(guān)注的是，研究人員通過調(diào)整獎勵權(quán)重發(fā)現(xiàn)，格式規(guī)范的約束能有效提升模型輸出的結(jié)構(gòu)化水平，驗證了雙軌獎勵機制的科學性。動態(tài)KL散度的參數(shù)優(yōu)化實驗則表明，適度的探索空間控制對模型性能至關(guān)重要。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

在线天堂www在线,中国孕妇变态孕交xxxx

OPPO研究院聯(lián)合港科廣發(fā)布OThink-MR1技術(shù) 突破多模態(tài)模型