在线天堂www在线,中国孕妇变态孕交xxxx http://pinmang.cn 93913成立于2015年9月13日,是目前國內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務商,通過93913為用戶提供信息服務以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務。 Sun, 30 Mar 2025 16:09:37 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 OPPO研究院聯(lián)合港科廣發(fā)布OThink-MR1技術(shù) 突破多模態(tài)模型 http://pinmang.cn/109594.html http://pinmang.cn/109594.html#respond Sun, 30 Mar 2025 16:09:37 +0000 http://pinmang.cn/?p=109594

OPPO研究院與香港科技大學廣州校區(qū)(港科廣)聯(lián)合宣布推出新型人工智能技術(shù)OThink-MR1。該技術(shù)首次將動態(tài)強化學習框架引入多模態(tài)語言模型訓練,通過創(chuàng)新的訓練策略顯著提升模型在復雜任務中的泛化推理能力,為多模態(tài) AI 的實際應用開辟了新路徑。

當前主流多模態(tài)模型多依賴監(jiān)督微調(diào)(SFT),雖能在特定任務上表現(xiàn)出色,但面對跨領(lǐng)域推理時往往捉襟見肘。OThink-MR1 技術(shù)創(chuàng)造性地引入動態(tài) KL 散度策略(GRPO-D),通過自適應調(diào)整探索與利用的平衡機制,引導模型在訓練過程中逐步優(yōu)化決策路徑。這一策略如同為模型配備 “智能導航系統(tǒng)”,既能在初期鼓勵多樣化嘗試,又能在后期聚焦高效解決方案,有效規(guī)避傳統(tǒng)強化學習中常見的局部最優(yōu)陷阱。

研究團隊同步設計了雙軌獎勵模型:在視覺計數(shù)、幾何推理等典型任務中,模型不僅需保證答案準確性,還需遵循預設格式規(guī)范。這種 “雙評分機制” 如同為模型提供多維度反饋,使其在提升推理精度的同時,強化對復雜任務格式的適應性。

在關(guān)鍵驗證環(huán)節(jié),OThink-MR1 展現(xiàn)出突破性性能:在同任務驗證中,其GRPO-D方法在視覺計數(shù)與幾何推理任務上的表現(xiàn)均超越監(jiān)督微調(diào);跨任務評估更具挑戰(zhàn)性,模型需在理解類任務(如視覺計數(shù))與推理類任務(如幾何證明)間自由遷移。實驗數(shù)據(jù)顯示,經(jīng)GRPO-D訓練的模型在跨任務泛化中成績提升顯著,尤其在從理解到推理的高階遷移場景中,其進步幅度遠超傳統(tǒng)方法。

值得關(guān)注的是,研究人員通過調(diào)整獎勵權(quán)重發(fā)現(xiàn),格式規(guī)范的約束能有效提升模型輸出的結(jié)構(gòu)化水平,驗證了雙軌獎勵機制的科學性。動態(tài)KL散度的參數(shù)優(yōu)化實驗則表明,適度的探索空間控制對模型性能至關(guān)重要。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」
]]>
http://pinmang.cn/109594.html/feed 0