強化學(xué)習(xí)的發(fā)展提升了大語言模型(LLM)在各方面的能力,而其自身也在不斷進化。在眾多復(fù)雜任務(wù)中,讓智能體實現(xiàn)最佳性能往往需要直接在多輪相關(guān)目標上執(zhí)行優(yōu)化。然而,目前在多輪強化學(xué)習(xí)算法方面,哪種方法能最有效地利用 LLM 的推理能力來訓(xùn)練通用、有能力且目標導(dǎo)向的智能體,仍是一個待解之謎。?
近日,Meta FAIR 和加利福尼亞大學(xué)伯克利分校的一個研究團隊在這一研究課題上取得了突破性進展。他們不僅為該問題構(gòu)建了一個全新的基準 ——ColBench(Collaborative Agent Benchmark),還提出了一種易于實現(xiàn)卻非常有效的強化學(xué)習(xí)算法:SWEET – RL(RL with Step – WisE Evaluation from Training – Time Information)。這一成果引起了業(yè)界的廣泛關(guān)注。?
人類模擬器依據(jù)只有自己可見的參考代碼,用自然語言對每個問題提供簡要解釋,但不會編寫代碼。智能體和人類模擬器之間的交互限定在10輪來回,當智能體給出最終解決方案或達到最大輪數(shù)時,交互結(jié)束。評估智能體是否成功,需對每個函數(shù)進行10次隱藏單元測試,每次協(xié)作根據(jù)測試結(jié)果給予0或1的獎勵。?
前端設(shè)計任務(wù)中,智能體要與人類模擬器協(xié)作,通過編寫 HTML 代碼片段(約100行)來設(shè)計網(wǎng)頁。協(xié)作開始時,智能體得到網(wǎng)頁的高級描述,像網(wǎng)頁的布局和調(diào)色板等許多具體細節(jié)都缺失,只有人類模擬器能夠看到。在每一輪中,智能體有機會編寫HTML代碼并通過 Web 瀏覽器呈現(xiàn)結(jié)果。人類模擬器將智能體給出的網(wǎng)頁與參考網(wǎng)頁對比后,向智能體描述差異。與后端編程協(xié)作類似,當智能體給出最終解決方案或達到最大10輪交互時,交互結(jié)束。評估指標采用智能體解答與參考網(wǎng)頁之間的CLIP嵌入的余弦相似度。?
為在推理密集型任務(wù)中執(zhí)行顯式的信用分配,此前一些研究采用先學(xué)習(xí)顯式價值函數(shù),再從學(xué)習(xí)到的價值函數(shù)中得出每個單獨動作優(yōu)勢的方法。但該研究團隊實驗發(fā)現(xiàn),當微調(diào)只能使用有限數(shù)量的樣本時,這種價值函數(shù)無法很好地泛化。他們推測這是因為在推理密集型任務(wù)中學(xué)習(xí)準確的價值函數(shù)本身就是一項艱巨任務(wù),且不能有效利用預(yù)訓(xùn)練LLM的推理和泛化能力。?