深度求索(DeepSeek)與清華大學(xué)合作,成功推出一項(xiàng)創(chuàng)新性AI對(duì)齊技術(shù) ——SPCT(自我原則點(diǎn)評(píng)調(diào)優(yōu))。這一技術(shù)的誕生,打破了傳統(tǒng)模式對(duì)海量訓(xùn)練數(shù)據(jù)的依賴,通過在推理階段對(duì)輸出質(zhì)量進(jìn)行動(dòng)態(tài)優(yōu)化,為AI模型性能提升開辟了新路徑。?
根據(jù)研究團(tuán)隊(duì)發(fā)表的論文,SPCT技術(shù)依托 “原則合成-響應(yīng)生成-批判過濾-原則優(yōu)化”的遞歸架構(gòu),賦予模型在推理過程中動(dòng)態(tài)修正輸出的能力。具體而言,SPCT方法分為兩個(gè)關(guān)鍵階段。首先是拒絕式微調(diào)作為冷啟動(dòng)環(huán)節(jié),此階段使GRM模型適應(yīng)不同類的輸入,并以正確格式生成原則與點(diǎn)評(píng)內(nèi)容。隨后進(jìn)入基于規(guī)則的在線強(qiáng)化學(xué)習(xí)階段,該階段采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)機(jī)制,激勵(lì)GRM模型生成更優(yōu)質(zhì)的原則與點(diǎn)評(píng)內(nèi)容,有效提升了推理階段的可擴(kuò)展性。?
在實(shí)際測(cè)試中,搭載SPCT技術(shù)的270億參數(shù)DeepSeek – GRM模型表現(xiàn)卓越。通過每查詢進(jìn)行32次采樣的推理計(jì)算,該模型成功達(dá)到了6710億參數(shù)規(guī)模模型的性能水平。這一成果得益于其硬件感知設(shè)計(jì),采用混合專家系統(tǒng)(MoE),不僅支持128k token的上下文窗口,還將單查詢延遲控制在僅1.4秒。?
值得一提的是,SPCT技術(shù)顯著降低了高性能模型的部署門檻。以DeepSeek – GRM模型為例,其訓(xùn)練成本約為1.2萬美元,卻在MT – Bench測(cè)試中獲得了8.35的高分。與之對(duì)比,3400億參數(shù)Nemotron – 4模型獲得8.41分需耗費(fèi)120萬美元,而OpenAI擁有1.8萬億參數(shù)的GPT – 4o模型雖取得8.72分,但成本高達(dá)630萬美元,DeepSeek – GRM的成本僅為GPT – 4o的五百二十五分之一。此外,SPCT 技術(shù)減少了90%的人工標(biāo)注需求,能耗相較于DPO降低73%,為實(shí)時(shí)機(jī)器人控制等動(dòng)態(tài)場(chǎng)景的應(yīng)用提供了新的可能。