OPPO研究院聯(lián)合港科廣發(fā)布OThink-MR1技術(shù) 突破多模態(tài)模型

William2025年3月31日 · Ai人工智能 ·

?? 由文心大模型生成的文章摘要

OPPO研究院與香港科技大學(xué)廣州校區(qū)（港科廣）聯(lián)合宣布推出新型人工智能技術(shù)OThink-MR1。該技術(shù)首次將動態(tài)強化學(xué)習(xí)框架引入多模態(tài)語言模型訓(xùn)練，通過創(chuàng)新的訓(xùn)練策略顯著提升模型在復(fù)雜任務(wù)中的泛化推理能力，為多模態(tài) AI 的實際應(yīng)用開辟了新路徑。

當(dāng)前主流多模態(tài)模型多依賴監(jiān)督微調(diào)（SFT），雖能在特定任務(wù)上表現(xiàn)出色，但面對跨領(lǐng)域推理時往往捉襟見肘。OThink-MR1 技術(shù)創(chuàng)造性地引入動態(tài) KL 散度策略（GRPO-D），通過自適應(yīng)調(diào)整探索與利用的平衡機制，引導(dǎo)模型在訓(xùn)練過程中逐步優(yōu)化決策路徑。這一策略如同為模型配備 “智能導(dǎo)航系統(tǒng)”，既能在初期鼓勵多樣化嘗試，又能在后期聚焦高效解決方案，有效規(guī)避傳統(tǒng)強化學(xué)習(xí)中常見的局部最優(yōu)陷阱。

研究團(tuán)隊同步設(shè)計了雙軌獎勵模型：在視覺計數(shù)、幾何推理等典型任務(wù)中，模型不僅需保證答案準(zhǔn)確性，還需遵循預(yù)設(shè)格式規(guī)范。這種 “雙評分機制” 如同為模型提供多維度反饋，使其在提升推理精度的同時，強化對復(fù)雜任務(wù)格式的適應(yīng)性。

在關(guān)鍵驗證環(huán)節(jié)，OThink-MR1 展現(xiàn)出突破性性能：在同任務(wù)驗證中，其GRPO-D方法在視覺計數(shù)與幾何推理任務(wù)上的表現(xiàn)均超越監(jiān)督微調(diào)；跨任務(wù)評估更具挑戰(zhàn)性，模型需在理解類任務(wù)（如視覺計數(shù)）與推理類任務(wù)（如幾何證明）間自由遷移。實驗數(shù)據(jù)顯示，經(jīng)GRPO-D訓(xùn)練的模型在跨任務(wù)泛化中成績提升顯著，尤其在從理解到推理的高階遷移場景中，其進(jìn)步幅度遠(yuǎn)超傳統(tǒng)方法。

值得關(guān)注的是，研究人員通過調(diào)整獎勵權(quán)重發(fā)現(xiàn)，格式規(guī)范的約束能有效提升模型輸出的結(jié)構(gòu)化水平，驗證了雙軌獎勵機制的科學(xué)性。動態(tài)KL散度的參數(shù)優(yōu)化實驗則表明，適度的探索空間控制對模型性能至關(guān)重要。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標(biāo)簽:

oppo OThink-MR1

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

OPPO研究院聯(lián)合港科廣發(fā)布OThink-MR1技術(shù) 突破多模態(tài)模型

相關(guān)文章

AI智能眼鏡產(chǎn)業(yè)創(chuàng)新峰會聚焦垂直場景應(yīng)用看好滲透率快速提升

寧夏出臺“人工智能+”三年行動方案全力構(gòu)建西部領(lǐng)先創(chuàng)新應(yīng)用示范區(qū)

阿里將奧運會“搬上云端”，接管衛(wèi)星增加人工智能服務(wù)

OpenAI：AGI有望2030年前到來，將接管30%-40%人類工作

蘋果計劃年底前在中國推出Apple Intelligence

上漲42%，這支人工智能股票或?qū)⒃?月獲得大幅提振

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)

AI應(yīng)用推薦

熱門

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)