快手開源KwaiCoder-AutoThink-preview自動思考大模型

?? 由 文心大模型 生成的文章摘要

快手Kwaipilot團隊宣布開源KwaiCoder-AutoThink-preview自動思考大模型,針對當(dāng)前深度思考大模型普遍存在的“過度思考”問題,提出了創(chuàng)新性解決方案。該模型不僅融合了“思考”與“非思考”能力,還通過全新訓(xùn)練范式與強化學(xué)習(xí)方法,在多個評測榜單上實現(xiàn)顯著性能提升。?

解決“過度思考”:全新訓(xùn)練范式與強化學(xué)習(xí)方法?

隨著深度學(xué)習(xí)模型在各領(lǐng)域的廣泛應(yīng)用,深度思考大模型的“過度思考”問題逐漸凸顯。當(dāng)面對簡單任務(wù)時,這類模型仍會生成冗長、冗余的推理過程,降低效率??焓諯waipilot團隊深入研究此問題,提出了全新的自動思考模型訓(xùn)練范式。該范式讓模型能夠根據(jù)問題的復(fù)雜程度,智能選擇是否進行深度思考,避免了不必要的資源浪費。?

同時,基于傳統(tǒng)強化學(xué)習(xí)算法(GRPO),團隊創(chuàng)新性地開發(fā)了帶有過程監(jiān)督的強化學(xué)習(xí)方法Step-SRPO。這一方法通過對模型推理過程的實時監(jiān)督,進一步優(yōu)化了模型在復(fù)雜任務(wù)中的表現(xiàn),確保模型在面對各類問題時都能給出高效、準(zhǔn)確的回答。?

“思考”與“非思考”融合:根據(jù)問題難度自動切換?

KwaiCoder-AutoThink-preview模型最大的亮點在于其獨特的設(shè)計理念——融合“思考”和“非思考”能力。團隊將其形容為“DeepSeek-V3&R1合體”,意味著模型能夠像人類一樣,根據(jù)問題的難度自動切換思考模式。?

在面對簡單問題時,模型迅速給出答案,無需復(fù)雜的推理過程,提升處理效率;而遇到復(fù)雜問題,模型則進入深度思考模式,通過多輪推理和驗證,得出準(zhǔn)確結(jié)論。這種根據(jù)問題難度自動調(diào)節(jié)思考深度的能力,使模型在多個“思考”和“非思考”評測榜單上均取得了優(yōu)異成績。特別是在代碼和數(shù)學(xué)類任務(wù)中,開啟自動思考模式后,模型得分提升高達20分左右,展現(xiàn)出強大的問題解決能力。?

性能提升顯著:多榜單驗證,潛力巨大?

通過在多個權(quán)威評測榜單上的測試,KwaiCoder-AutoThink-preview模型的性能提升得到了充分驗證。即使在未開啟思考模式的情況下,憑借更優(yōu)的推理形態(tài),模型性能也有小幅上漲,顯示出其良好的通用性和適應(yīng)性。?

快手技術(shù)團隊透露,未來將基于當(dāng)前的preview版本模型,進一步強化推理能力,并支持更完善的思考中工具使用能力。此外,團隊還計劃開源全部技術(shù)細節(jié)和訓(xùn)練方法,為AI領(lǐng)域的研究人員和開發(fā)者提供寶貴資源,推動整個行業(yè)的發(fā)展。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」