中文字幕精品亚洲一区,最近的2019中文字幕国语hd http://pinmang.cn 93913成立于2015年9月13日,是目前國內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過93913為用戶提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務(wù)。 Sun, 23 Mar 2025 16:28:50 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 Meta與伯克利團隊在強化學(xué)習(xí)領(lǐng)域取得重大突破,推出新算法SWEET – RL http://pinmang.cn/109406.html http://pinmang.cn/109406.html#respond Sun, 23 Mar 2025 16:28:50 +0000 http://pinmang.cn/?p=109406

強化學(xué)習(xí)的發(fā)展提升了大語言模型(LLM)在各方面的能力,而其自身也在不斷進化。在眾多復(fù)雜任務(wù)中,讓智能體實現(xiàn)最佳性能往往需要直接在多輪相關(guān)目標上執(zhí)行優(yōu)化。然而,目前在多輪強化學(xué)習(xí)算法方面,哪種方法能最有效地利用 LLM 的推理能力來訓(xùn)練通用、有能力且目標導(dǎo)向的智能體,仍是一個待解之謎。?

近日,Meta FAIR 和加利福尼亞大學(xué)伯克利分校的一個研究團隊在這一研究課題上取得了突破性進展。他們不僅為該問題構(gòu)建了一個全新的基準 ——ColBench(Collaborative Agent Benchmark),還提出了一種易于實現(xiàn)卻非常有效的強化學(xué)習(xí)算法:SWEET – RL(RL with Step – WisE Evaluation from Training – Time Information)。這一成果引起了業(yè)界的廣泛關(guān)注。?

人類模擬器依據(jù)只有自己可見的參考代碼,用自然語言對每個問題提供簡要解釋,但不會編寫代碼。智能體和人類模擬器之間的交互限定在10輪來回,當智能體給出最終解決方案或達到最大輪數(shù)時,交互結(jié)束。評估智能體是否成功,需對每個函數(shù)進行10次隱藏單元測試,每次協(xié)作根據(jù)測試結(jié)果給予0或1的獎勵。?

前端設(shè)計任務(wù)中,智能體要與人類模擬器協(xié)作,通過編寫 HTML 代碼片段(約100行)來設(shè)計網(wǎng)頁。協(xié)作開始時,智能體得到網(wǎng)頁的高級描述,像網(wǎng)頁的布局和調(diào)色板等許多具體細節(jié)都缺失,只有人類模擬器能夠看到。在每一輪中,智能體有機會編寫HTML代碼并通過 Web 瀏覽器呈現(xiàn)結(jié)果。人類模擬器將智能體給出的網(wǎng)頁與參考網(wǎng)頁對比后,向智能體描述差異。與后端編程協(xié)作類似,當智能體給出最終解決方案或達到最大10輪交互時,交互結(jié)束。評估指標采用智能體解答與參考網(wǎng)頁之間的CLIP嵌入的余弦相似度。?

為在推理密集型任務(wù)中執(zhí)行顯式的信用分配,此前一些研究采用先學(xué)習(xí)顯式價值函數(shù),再從學(xué)習(xí)到的價值函數(shù)中得出每個單獨動作優(yōu)勢的方法。但該研究團隊實驗發(fā)現(xiàn),當微調(diào)只能使用有限數(shù)量的樣本時,這種價值函數(shù)無法很好地泛化。他們推測這是因為在推理密集型任務(wù)中學(xué)習(xí)準確的價值函數(shù)本身就是一項艱巨任務(wù),且不能有效利用預(yù)訓(xùn)練LLM的推理和泛化能力。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」
]]>
http://pinmang.cn/109406.html/feed 0