DeepSeek開源6850億參數(shù)模型,在Hugging Face熱度飆升

?? 由 文心大模型 生成的文章摘要

DeepSeek宣布開源其最新的語言模型DeepSeekV3.1-Base版本,并將模型文件上傳至全球知名的Hugging Face平臺。這一舉措迅速引發(fā)了廣泛關(guān)注,該模型在Hugging Face的趨勢榜單中強(qiáng)勢上升,目前已躍居第4名。?

DeepSeekV3.1-Base模型的參數(shù)規(guī)??胺Q龐大,達(dá)到了驚人的6850億,這使其在處理復(fù)雜任務(wù)和理解上下文時具備更強(qiáng)的能力。在張量類型方面,它支持BF16、F8_E4M3、F32三種類型。BF16(BrainFloat16)是一種16位浮點(diǎn)格式,其8位指數(shù)和7位尾數(shù)的設(shè)計,讓它擁有與FP32一致的動態(tài)范圍,在一些訓(xùn)練場景中能提供穩(wěn)定性;F8_E4M3屬于8位浮點(diǎn)數(shù)格式中的一種,其中4位用于指數(shù)、3位用于尾數(shù),這種格式在梯度計算等方面有獨(dú)特優(yōu)勢;F32則是較為常見的32位浮點(diǎn)格式,在精度要求較高的計算中表現(xiàn)出色。多種張量類型的支持,使得該模型能適應(yīng)不同硬件環(huán)境和計算需求,無論是追求計算效率還是精度,都能找到合適的配置。?

模型以Safetensors格式發(fā)布,這一格式由Hugging Face開發(fā)并開源,專為解決傳統(tǒng)模型存儲格式在安全性和加載效率上的問題而設(shè)計。與傳統(tǒng)的PyTorch的.pt/.pth格式以及TensorFlow的.ckpt格式相比,Safetensors是純二進(jìn)制格式,不依賴pickle,避免了惡意代碼利用pickle執(zhí)行任意代碼的安全隱患。同時,它支持零拷貝加載,能夠直接從磁盤映射到內(nèi)存,無需額外的解壓或復(fù)制操作,大大提高了加載效率,尤其適合像DeepSeekV3.1-Base這樣的大規(guī)模模型,在分布式訓(xùn)練或大模型推理中優(yōu)勢顯著。?

值得一提的是,DeepSeekV3.1-Base還具備擴(kuò)展的上下文窗口,這意味著它在處理單個查詢時,可以處理和保留更多信息,從而在長文本理解、對話連貫性等方面有更好的表現(xiàn)。無論是進(jìn)行長篇文檔的分析,還是參與復(fù)雜的多輪對話,該模型都能憑借其擴(kuò)展的上下文窗口,更全面地理解上下文含義,給出更準(zhǔn)確、更符合邏輯的回答。?

隨著DeepSeekV3.1-Base在Hugging Face平臺熱度的持續(xù)上升,預(yù)計它將在人工智能研究、開發(fā)等領(lǐng)域得到廣泛應(yīng)用和深入研究,為推動行業(yè)發(fā)展注入新的活力。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」