DeepSeek-R1推理模型研究論文登上《自然》封面,開創(chuàng)大模型研究新紀(jì)元

?? 由 文心大模型 生成的文章摘要

由DeepSeek(深度求索)團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,成功登上了國(guó)際權(quán)威期刊《自然(Nature)》的封面。這一成果不僅標(biāo)志著DeepSeek團(tuán)隊(duì)在人工智能領(lǐng)域取得了重大突破,更為全球大模型研究開辟了新的道路,具有里程碑式的意義。?

DeepSeek首次公開了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要研究成果,這一創(chuàng)新性發(fā)現(xiàn)猶如一顆重磅炸彈,在全球AI研究者群體中激起千層浪。長(zhǎng)期以來,推理能力的提升一直是大語言模型發(fā)展的關(guān)鍵難題,傳統(tǒng)方法往往嚴(yán)重依賴人工標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),可擴(kuò)展性受限。而DeepSeek-R1的核心創(chuàng)新之處,便是采用了“純強(qiáng)化學(xué)習(xí)”這一自動(dòng)化試錯(cuò)方法。R1通過獎(jiǎng)勵(lì)模型達(dá)到正確答案的行為來學(xué)習(xí)推理策略,而非像以往那樣模仿人類預(yù)設(shè)的推理模式。?

在研究過程中,團(tuán)隊(duì)開發(fā)了DeepSeek-R1-Zero,它采用群組相對(duì)策略優(yōu)化(GRPO)算法,有效降低了訓(xùn)練成本。同時(shí),通過將準(zhǔn)確性獎(jiǎng)勵(lì)(如數(shù)學(xué)答案匹配、代碼執(zhí)行驗(yàn)證)與格式獎(jiǎng)勵(lì)(標(biāo)準(zhǔn)化思維鏈結(jié)構(gòu))相結(jié)合的獨(dú)特獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì),激發(fā)模型生成長(zhǎng)鏈推理和自驗(yàn)證行為。訓(xùn)練過程中,DeepSeek-R1-Zero展現(xiàn)出令人驚嘆的自我進(jìn)化能力,學(xué)會(huì)了生成數(shù)百到數(shù)千個(gè)推理token,深入探索和完善思維過程,還發(fā)展出反思能力和探索不同解題方法的能力。甚至在訓(xùn)練中期,模型學(xué)會(huì)了通過重新評(píng)估初始方法來更合理地分配思考時(shí)間,出現(xiàn)了神奇的“頓悟時(shí)刻”(AhaMoment)。?

不過,DeepSeek-R1-Zero也存在一些局限性,如回答可讀性差、語言混雜等。為此,團(tuán)隊(duì)在R1的研發(fā)中引入少量冷啟動(dòng)數(shù)據(jù)(數(shù)千樣本)和多階段訓(xùn)練(SFT+RL)。先進(jìn)行冷啟動(dòng)SFT,人工篩選高質(zhì)量思維鏈數(shù)據(jù)提升可讀性;接著在推理場(chǎng)景進(jìn)行RL,復(fù)用R1-Zero的RL框架并新增語言一致性獎(jiǎng)勵(lì)抑制混合輸出;然后通過拒絕采樣與通用SFT,結(jié)合RL生成的數(shù)據(jù)和通用任務(wù)數(shù)據(jù)(總計(jì)80萬樣本),平衡推理與通用能力;最后進(jìn)行全場(chǎng)景RL,針對(duì)不同任務(wù)類型動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)策略,最終使得DeepSeek-R1在性能與用戶體驗(yàn)上達(dá)到平衡,其推理性能與OpenAI-o1-1217相當(dāng)。?

作為全球首個(gè)通過同行評(píng)審的主流大語言模型,DeepSeek-R1的這一歷程可謂意義非凡?!蹲匀弧菲诳坏珜⒃撈撐淖鳛榉饷嬲撐?,還在評(píng)論報(bào)道文章中用“里程碑式論文揭示DeepSeekAI模型的秘密”“創(chuàng)造歷史”等表述,毫不吝嗇地表達(dá)對(duì)其贊賞和肯定。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」