
在大模型訓(xùn)練與開發(fā)領(lǐng)域,知名平臺Predibase發(fā)布了全球首個(gè)端到端強(qiáng)化微調(diào)平臺(Reinforcement Fine – Tuning,簡稱RFT),這一突破性進(jìn)展在人工智能行業(yè)掀起波瀾,有望重塑大模型微調(diào)的現(xiàn)有格局。?
在以往的大模型微調(diào)工作中,傳統(tǒng)的監(jiān)督式微調(diào)方法嚴(yán)重依賴大量標(biāo)注數(shù)據(jù),而獲取和標(biāo)注這些數(shù)據(jù)不僅成本高昂,還耗費(fèi)大量時(shí)間與人力。Predibase此次推出的RFT平臺,徹底打破了這一困境。它摒棄了對海量標(biāo)注數(shù)據(jù)的依賴,借助獎(jiǎng)勵(lì)機(jī)制與自定義函數(shù)開展持續(xù)的強(qiáng)化學(xué)習(xí)。舉例來說,在醫(yī)療領(lǐng)域?qū)膊≡\斷模型進(jìn)行微調(diào)時(shí),傳統(tǒng)方法可能需要收集并標(biāo)注成千上萬份病例數(shù)據(jù),而使用RFT平臺,或許僅需依據(jù)少量典型病例構(gòu)建獎(jiǎng)勵(lì)函數(shù),就能引導(dǎo)模型朝著正確的診斷方向優(yōu)化。?
RFT平臺的另一大顯著優(yōu)勢在于其支持無服務(wù)器和端到端訓(xùn)練方法。從數(shù)據(jù)管理環(huán)節(jié)開始,用戶便能在平臺上便捷地整理、清洗數(shù)據(jù);進(jìn)入訓(xùn)練模型階段,平臺利用先進(jìn)的多LoRA框架和流式微批處理技術(shù),實(shí)現(xiàn)高效訓(xùn)練;完成訓(xùn)練后,應(yīng)用部署也可在同一平臺迅速完成。整個(gè)流程一氣呵成,用戶無需擔(dān)憂底層服務(wù)器的運(yùn)維管理,也無需在多個(gè)不同工具或平臺間頻繁切換。用戶僅需通過普通瀏覽器,在平臺界面上設(shè)定微調(diào)目標(biāo),如在電商場景中,將目標(biāo)設(shè)定為精準(zhǔn)推薦商品,接著上傳相關(guān)數(shù)據(jù),如用戶瀏覽歷史、購買記錄等,就能輕松完成曾經(jīng)極為復(fù)雜的大模型微調(diào)流程。?
為了直觀展現(xiàn)RFT平臺的強(qiáng)大效能,Predibase基于阿里開源Qwen2.5-Coder-32B-instruct 模型,微調(diào)出一款專門用于將PyTorch代碼翻譯為Triton代碼的模型——Predibase-T2T-32B-RFT。
將PyTorch代碼準(zhǔn)確翻譯為Triton代碼,這一任務(wù)極具挑戰(zhàn)性,需要模型對兩個(gè)框架都有深刻理解,且具備復(fù)雜的推理能力以兼顧計(jì)算效率,在微調(diào)前,Qwen2.5-Coder-32B-instruct 模型在此任務(wù)上的準(zhǔn)確率并不高。而通過 RFT 平臺,Predibase 在訓(xùn)練過程中巧妙融合了冷啟動(dòng)監(jiān)督式微調(diào)、強(qiáng)化學(xué)習(xí)以及課程學(xué)習(xí)技術(shù),令人驚嘆的是,整個(gè)過程僅使用了十幾個(gè)標(biāo)記數(shù)據(jù)點(diǎn)。








