小紅書(shū)開(kāi)源首個(gè)大模型dots.llm1,11萬(wàn)億非合成訓(xùn)練數(shù)據(jù)帶來(lái)驚艷表現(xiàn)

?? 由 文心大模型 生成的文章摘要

社交平臺(tái)小紅書(shū),在大模型領(lǐng)域邁出了重要一步,開(kāi)源了其首個(gè)大模型——dots.llm1。這一舉措在業(yè)內(nèi)引起了廣泛關(guān)注,為大模型的發(fā)展注入了新的活力。?

dots.llm1是一個(gè)擁有1420億參數(shù)的專家混合模型(MoE)。與其他模型不同的是,它在推理過(guò)程中僅激活140億參數(shù)。這種獨(dú)特的設(shè)計(jì)使得模型在保持高性能的同時(shí),能夠大幅度降低訓(xùn)練和推理成本,為模型的廣泛應(yīng)用提供了更經(jīng)濟(jì)高效的解決方案。?

dots.llm1最大的特色之一,是使用了11.2萬(wàn)億token的非合成高質(zhì)量訓(xùn)練數(shù)據(jù)。在現(xiàn)階段的開(kāi)源大模型中,如此大規(guī)模的非合成數(shù)據(jù)非常罕見(jiàn)。小紅書(shū)憑借自身龐大的語(yǔ)料庫(kù),為模型訓(xùn)練提供了豐富而優(yōu)質(zhì)的數(shù)據(jù)資源。這些數(shù)據(jù)來(lái)源于真實(shí)的網(wǎng)絡(luò)內(nèi)容,經(jīng)過(guò)精心篩選和處理,確保了數(shù)據(jù)的高質(zhì)量和多樣性。?

得益于高質(zhì)量的訓(xùn)練數(shù)據(jù),在中文測(cè)試中,dots.llm1展現(xiàn)出了強(qiáng)大的性能。它以91.3的平均分,超過(guò)了DeepSeek開(kāi)源的V2、V3,以及阿里開(kāi)源的Qwen2.532B和72B。這一成績(jī)充分證明了dots.llm1在中文語(yǔ)言理解和處理方面的卓越能力。無(wú)論是語(yǔ)義理解、文本生成還是知識(shí)問(wèn)答,dots.llm1都能給出高質(zhì)量的回答。?

在模型架構(gòu)方面,dots.llm1使用了單向解碼器Transformer架構(gòu),并將前饋網(wǎng)絡(luò)替換為MoE。MoE將模型分為多個(gè)專家網(wǎng)絡(luò),每個(gè)專家網(wǎng)絡(luò)專注于輸入數(shù)據(jù)的不同方面。在推理過(guò)程中,并不激活所有的專家網(wǎng)絡(luò),而是根據(jù)輸入標(biāo)記的特性,動(dòng)態(tài)地選擇一小部分專家網(wǎng)絡(luò)進(jìn)行計(jì)算。這種稀疏激活的方式極大減少了算力的需求,同時(shí)保持了模型的高性能。具體來(lái)說(shuō),dots.llm1的MoE由128個(gè)路由專家和2個(gè)共享專家組成。在每個(gè)輸入標(biāo)記的處理過(guò)程中,dots.llm1會(huì)通過(guò)一個(gè)路由機(jī)制選擇出6個(gè)最相關(guān)的專家網(wǎng)絡(luò),加上2個(gè)共享專家,總共激活8個(gè)專家網(wǎng)絡(luò)。?

此外,dots.llm1采用了經(jīng)典的多頭注意力機(jī)制(MHA),這是一種廣泛應(yīng)用于Transformer架構(gòu)中的注意力機(jī)制。通過(guò)引入RMSNorm,dots.llm1能夠更好地控制注意力機(jī)制的輸出,從而提高模型的穩(wěn)定性和性能。在訓(xùn)練過(guò)程中,dots.llm1還采用了AdamW優(yōu)化器,進(jìn)一步提高模型的性能和效率。?

在數(shù)據(jù)處理上,dots.llm1構(gòu)建了一套三級(jí)數(shù)據(jù)處理流水線,從雜亂無(wú)章的原始網(wǎng)頁(yè)數(shù)據(jù)中篩選出高質(zhì)量的語(yǔ)料。經(jīng)過(guò)TxT360數(shù)據(jù)集對(duì)比實(shí)驗(yàn)驗(yàn)證,該流水線處理后的網(wǎng)頁(yè)數(shù)據(jù)在MMLU、TriviaQA等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于當(dāng)前SOTA開(kāi)源數(shù)據(jù)。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」