Meta與伯克利團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)領(lǐng)域取得重大突破,推出新算法SWEET – RL

?? 由 文心大模型 生成的文章摘要

強(qiáng)化學(xué)習(xí)的發(fā)展提升了大語(yǔ)言模型(LLM)在各方面的能力,而其自身也在不斷進(jìn)化。在眾多復(fù)雜任務(wù)中,讓智能體實(shí)現(xiàn)最佳性能往往需要直接在多輪相關(guān)目標(biāo)上執(zhí)行優(yōu)化。然而,目前在多輪強(qiáng)化學(xué)習(xí)算法方面,哪種方法能最有效地利用 LLM 的推理能力來(lái)訓(xùn)練通用、有能力且目標(biāo)導(dǎo)向的智能體,仍是一個(gè)待解之謎。?

近日,Meta FAIR 和加利福尼亞大學(xué)伯克利分校的一個(gè)研究團(tuán)隊(duì)在這一研究課題上取得了突破性進(jìn)展。他們不僅為該問(wèn)題構(gòu)建了一個(gè)全新的基準(zhǔn) ——ColBench(Collaborative Agent Benchmark),還提出了一種易于實(shí)現(xiàn)卻非常有效的強(qiáng)化學(xué)習(xí)算法:SWEET – RL(RL with Step – WisE Evaluation from Training – Time Information)。這一成果引起了業(yè)界的廣泛關(guān)注。?

人類模擬器依據(jù)只有自己可見(jiàn)的參考代碼,用自然語(yǔ)言對(duì)每個(gè)問(wèn)題提供簡(jiǎn)要解釋,但不會(huì)編寫(xiě)代碼。智能體和人類模擬器之間的交互限定在10輪來(lái)回,當(dāng)智能體給出最終解決方案或達(dá)到最大輪數(shù)時(shí),交互結(jié)束。評(píng)估智能體是否成功,需對(duì)每個(gè)函數(shù)進(jìn)行10次隱藏單元測(cè)試,每次協(xié)作根據(jù)測(cè)試結(jié)果給予0或1的獎(jiǎng)勵(lì)。?

前端設(shè)計(jì)任務(wù)中,智能體要與人類模擬器協(xié)作,通過(guò)編寫(xiě) HTML 代碼片段(約100行)來(lái)設(shè)計(jì)網(wǎng)頁(yè)。協(xié)作開(kāi)始時(shí),智能體得到網(wǎng)頁(yè)的高級(jí)描述,像網(wǎng)頁(yè)的布局和調(diào)色板等許多具體細(xì)節(jié)都缺失,只有人類模擬器能夠看到。在每一輪中,智能體有機(jī)會(huì)編寫(xiě)HTML代碼并通過(guò) Web 瀏覽器呈現(xiàn)結(jié)果。人類模擬器將智能體給出的網(wǎng)頁(yè)與參考網(wǎng)頁(yè)對(duì)比后,向智能體描述差異。與后端編程協(xié)作類似,當(dāng)智能體給出最終解決方案或達(dá)到最大10輪交互時(shí),交互結(jié)束。評(píng)估指標(biāo)采用智能體解答與參考網(wǎng)頁(yè)之間的CLIP嵌入的余弦相似度。?

為在推理密集型任務(wù)中執(zhí)行顯式的信用分配,此前一些研究采用先學(xué)習(xí)顯式價(jià)值函數(shù),再?gòu)膶W(xué)習(xí)到的價(jià)值函數(shù)中得出每個(gè)單獨(dú)動(dòng)作優(yōu)勢(shì)的方法。但該研究團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)微調(diào)只能使用有限數(shù)量的樣本時(shí),這種價(jià)值函數(shù)無(wú)法很好地泛化。他們推測(cè)這是因?yàn)樵谕评砻芗腿蝿?wù)中學(xué)習(xí)準(zhǔn)確的價(jià)值函數(shù)本身就是一項(xiàng)艱巨任務(wù),且不能有效利用預(yù)訓(xùn)練LLM的推理和泛化能力。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」