
智譜發(fā)布重磅消息,新一代GLM-4-32B-0414系列模型正式推出。此系列模型參數(shù)規(guī)模達(dá)320億,在效果表現(xiàn)上可與OpenAI GPT系列以及DeepSeek V3/R1系列相媲美,并且具備極為友好的本地部署特性,為廣大用戶在模型使用上提供了更多便捷與可能。
該系列模型包含四款不同類型的模型,分別是GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414和GLM-Z1-9B-0414 ,每款模型都有其獨(dú)特的優(yōu)勢與應(yīng)用方向。在前期的預(yù)訓(xùn)練階段,模型采用了高達(dá)15T的高質(zhì)量數(shù)據(jù),其中大量推理類合成數(shù)據(jù)的運(yùn)用,為后續(xù)強(qiáng)化學(xué)習(xí)擴(kuò)展筑牢根基。而在后訓(xùn)練階段,團(tuán)隊(duì)不僅針對對話場景實(shí)現(xiàn)了人類偏好對齊,還借助拒絕采樣和強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù),強(qiáng)化了模型在指令遵循、工程代碼、函數(shù)調(diào)用等方面的效果,進(jìn)一步增強(qiáng)了智能體任務(wù)所需的原子能力。?
在實(shí)際應(yīng)用效果方面,GLM-4-32B-0414在多個(gè)領(lǐng)域都取得了出色成績。在工程代碼編寫、Artifacts生成、函數(shù)調(diào)用、搜索問答及報(bào)告撰寫等方面表現(xiàn)亮眼,部分Benchmark測試結(jié)果甚至能夠與參數(shù)規(guī)模更大的GPT-4o、DeepSeek-V3-0324(671B)等模型相抗衡。其中,GLM-Z1-32B-0414作為具有深度思考能力的推理模型,是在GLM-4-32B-0414基礎(chǔ)上,通過冷啟動和擴(kuò)展強(qiáng)化學(xué)習(xí),并針對數(shù)學(xué)、代碼和邏輯等任務(wù)進(jìn)行專門訓(xùn)練得到的。相較于基礎(chǔ)模型,它在數(shù)理能力以及解決復(fù)雜任務(wù)的能力上有了顯著提升。在訓(xùn)練過程中,團(tuán)隊(duì)引入基于對戰(zhàn)排序反饋的通用強(qiáng)化學(xué)習(xí),進(jìn)一步提升了模型的通用能力。?
GLM-Z1-Rumination-32B-0414是具有沉思能力的深度推理模型,對標(biāo)OpenAI Deep Research。該模型能夠通過更長時(shí)間的深度思考來攻克更開放、更復(fù)雜的問題,例如撰寫兩個(gè)城市 AI 發(fā)展對比情況以及未來發(fā)展規(guī)劃等。它還能結(jié)合搜索工具處理復(fù)雜任務(wù),并且經(jīng)過多種規(guī)則型獎(jiǎng)勵(lì)指導(dǎo)和擴(kuò)展端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,以提升解決復(fù)雜問題的能力。而GLM-Z1-9B-0414 作為一款開源的9B小尺寸模型,在數(shù)學(xué)推理和通用任務(wù)中展現(xiàn)出了極為優(yōu)秀的能力,在同尺寸開源模型中處于領(lǐng)先地位。?








