Meta與伯克利團隊在強化學(xué)習(xí)領(lǐng)域取得重大突破，推出新算法SWEET – RL

William — Sun, 23 Mar 2025 16:28:50 +0000

強化學(xué)習(xí)的發(fā)展提升了大語言模型（LLM）在各方面的能力，而其自身也在不斷進化。在眾多復(fù)雜任務(wù)中，讓智能體實現(xiàn)最佳性能往往需要直接在多輪相關(guān)目標上執(zhí)行優(yōu)化。然而，目前在多輪強化學(xué)習(xí)算法方面，哪種方法能最有效地利用 LLM 的推理能力來訓(xùn)練通用、有能力且目標導(dǎo)向的智能體，仍是一個待解之謎。?

近日，Meta FAIR 和加利福尼亞大學(xué)伯克利分校的一個研究團隊在這一研究課題上取得了突破性進展。他們不僅為該問題構(gòu)建了一個全新的基準 ——ColBench（Collaborative Agent Benchmark），還提出了一種易于實現(xiàn)卻非常有效的強化學(xué)習(xí)算法：SWEET – RL（RL with Step – WisE Evaluation from Training – Time Information）。這一成果引起了業(yè)界的廣泛關(guān)注。?

人類模擬器依據(jù)只有自己可見的參考代碼，用自然語言對每個問題提供簡要解釋，但不會編寫代碼。智能體和人類模擬器之間的交互限定在10輪來回，當智能體給出最終解決方案或達到最大輪數(shù)時，交互結(jié)束。評估智能體是否成功，需對每個函數(shù)進行10次隱藏單元測試，每次協(xié)作根據(jù)測試結(jié)果給予0或1的獎勵。?

前端設(shè)計任務(wù)中，智能體要與人類模擬器協(xié)作，通過編寫 HTML 代碼片段（約100行）來設(shè)計網(wǎng)頁。協(xié)作開始時，智能體得到網(wǎng)頁的高級描述，像網(wǎng)頁的布局和調(diào)色板等許多具體細節(jié)都缺失，只有人類模擬器能夠看到。在每一輪中，智能體有機會編寫HTML代碼并通過 Web 瀏覽器呈現(xiàn)結(jié)果。人類模擬器將智能體給出的網(wǎng)頁與參考網(wǎng)頁對比后，向智能體描述差異。與后端編程協(xié)作類似，當智能體給出最終解決方案或達到最大10輪交互時，交互結(jié)束。評估指標采用智能體解答與參考網(wǎng)頁之間的CLIP嵌入的余弦相似度。?

為在推理密集型任務(wù)中執(zhí)行顯式的信用分配，此前一些研究采用先學(xué)習(xí)顯式價值函數(shù)，再從學(xué)習(xí)到的價值函數(shù)中得出每個單獨動作優(yōu)勢的方法。但該研究團隊實驗發(fā)現(xiàn)，當微調(diào)只能使用有限數(shù)量的樣本時，這種價值函數(shù)無法很好地泛化。他們推測這是因為在推理密集型任務(wù)中學(xué)習(xí)準確的價值函數(shù)本身就是一項艱巨任務(wù)，且不能有效利用預(yù)訓(xùn)練LLM的推理和泛化能力。?

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

中文字幕精品亚洲一区,最近的2019中文字幕国语hd

Meta與伯克利團隊在強化學(xué)習(xí)領(lǐng)域取得重大突破，推出新算法SWEET – RL

Meta與伯克利團隊在強化學(xué)習(xí)領(lǐng)域取得重大突破，推出新算法SWEET – RL