據(jù)彭博社援引知情人士爆料,國(guó)內(nèi)人工智能領(lǐng)域的明星企業(yè)DeepSeek正緊鑼密鼓地開(kāi)發(fā)一款具備更先進(jìn)AI智能體功能的人工智能模型,目標(biāo)直指今年最后一個(gè)季度正式發(fā)布,意圖在技術(shù)前沿賽道與OpenAI等美國(guó)競(jìng)爭(zhēng)對(duì)手一決高下。?
DeepSeek在AI領(lǐng)域并非籍籍無(wú)名之輩。回溯到今年1月,其發(fā)布的R1模型猶如一顆投入平靜湖面的巨石,以模擬人類推理過(guò)程的卓越能力,瞬間吸引了全球科技行業(yè)的目光。令人驚嘆的是,這款震驚業(yè)界的模型開(kāi)發(fā)成本僅幾百萬(wàn)美元,堪稱以小博大的典范。不過(guò),自那之后,DeepSeek在模型更新上較為低調(diào),僅推出了一些小幅升級(jí),而與此同時(shí),中美兩地的競(jìng)爭(zhēng)對(duì)手們卻如雨后春筍般陸續(xù)推出多款新模型,市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈。?
此次DeepSeek全力投入研發(fā)的新模型,在功能上有著重大突破。與傳統(tǒng)的聊天機(jī)器人截然不同,它不再僅僅局限于用簡(jiǎn)單的幾句話來(lái)回應(yīng)用戶的提問(wèn)。該模型具備強(qiáng)大的自主任務(wù)處理能力,用戶只需給出最為簡(jiǎn)潔、最少的指令,它便能代表用戶去完成一系列復(fù)雜的多步驟操作。更為關(guān)鍵的是,它還能像人類一樣,從過(guò)往執(zhí)行的操作中不斷汲取經(jīng)驗(yàn),持續(xù)學(xué)習(xí)并改進(jìn)自身的表現(xiàn),逐步減少對(duì)人工干預(yù)的依賴。舉例來(lái)說(shuō),如果用戶希望它規(guī)劃一次長(zhǎng)途旅行,它不僅能迅速根據(jù)用戶偏好規(guī)劃出路線,預(yù)訂機(jī)票、酒店,還能根據(jù)之前規(guī)劃旅行的反饋,不斷優(yōu)化方案,以提供更符合用戶心意的服務(wù)。?
目前,DeepSeek的創(chuàng)始人梁文峰正積極推動(dòng)團(tuán)隊(duì)加速研發(fā)進(jìn)程。團(tuán)隊(duì)成員們?nèi)找箠^戰(zhàn),目標(biāo)只有一個(gè),就是確保能在2025年第四季度將這款凝聚無(wú)數(shù)心血的新產(chǎn)品推向市場(chǎng)。DeepSeek的這一動(dòng)作,無(wú)疑顯示出其對(duì)AI智能體領(lǐng)域的強(qiáng)烈信心與野心。?
從行業(yè)發(fā)展來(lái)看,AI智能體代表著人工智能發(fā)展的新方向。整個(gè)行業(yè)都在致力于打造越來(lái)越自主的AI系統(tǒng),期望這些系統(tǒng)能在幾乎無(wú)需人工過(guò)多干預(yù)的情況下,主動(dòng)且高效地執(zhí)行復(fù)雜的現(xiàn)實(shí)任務(wù)。盡管截至目前,AI智能體在實(shí)際應(yīng)用中仍然離不開(kāi)一定程度的人類監(jiān)督,但這并未阻擋科技公司探索的腳步。DeepSeek此次的研發(fā)計(jì)劃,一旦成功,將可能極大地改變現(xiàn)有的AI應(yīng)用格局。?
DeepSeek宣布開(kāi)源其最新的語(yǔ)言模型DeepSeekV3.1-Base版本,并將模型文件上傳至全球知名的Hugging Face平臺(tái)。這一舉措迅速引發(fā)了廣泛關(guān)注,該模型在Hugging Face的趨勢(shì)榜單中強(qiáng)勢(shì)上升,目前已躍居第4名。?
DeepSeekV3.1-Base模型的參數(shù)規(guī)??胺Q龐大,達(dá)到了驚人的6850億,這使其在處理復(fù)雜任務(wù)和理解上下文時(shí)具備更強(qiáng)的能力。在張量類型方面,它支持BF16、F8_E4M3、F32三種類型。BF16(BrainFloat16)是一種16位浮點(diǎn)格式,其8位指數(shù)和7位尾數(shù)的設(shè)計(jì),讓它擁有與FP32一致的動(dòng)態(tài)范圍,在一些訓(xùn)練場(chǎng)景中能提供穩(wěn)定性;F8_E4M3屬于8位浮點(diǎn)數(shù)格式中的一種,其中4位用于指數(shù)、3位用于尾數(shù),這種格式在梯度計(jì)算等方面有獨(dú)特優(yōu)勢(shì);F32則是較為常見(jiàn)的32位浮點(diǎn)格式,在精度要求較高的計(jì)算中表現(xiàn)出色。多種張量類型的支持,使得該模型能適應(yīng)不同硬件環(huán)境和計(jì)算需求,無(wú)論是追求計(jì)算效率還是精度,都能找到合適的配置。?
模型以Safetensors格式發(fā)布,這一格式由Hugging Face開(kāi)發(fā)并開(kāi)源,專為解決傳統(tǒng)模型存儲(chǔ)格式在安全性和加載效率上的問(wèn)題而設(shè)計(jì)。與傳統(tǒng)的PyTorch的.pt/.pth格式以及TensorFlow的.ckpt格式相比,Safetensors是純二進(jìn)制格式,不依賴pickle,避免了惡意代碼利用pickle執(zhí)行任意代碼的安全隱患。同時(shí),它支持零拷貝加載,能夠直接從磁盤(pán)映射到內(nèi)存,無(wú)需額外的解壓或復(fù)制操作,大大提高了加載效率,尤其適合像DeepSeekV3.1-Base這樣的大規(guī)模模型,在分布式訓(xùn)練或大模型推理中優(yōu)勢(shì)顯著。?
值得一提的是,DeepSeekV3.1-Base還具備擴(kuò)展的上下文窗口,這意味著它在處理單個(gè)查詢時(shí),可以處理和保留更多信息,從而在長(zhǎng)文本理解、對(duì)話連貫性等方面有更好的表現(xiàn)。無(wú)論是進(jìn)行長(zhǎng)篇文檔的分析,還是參與復(fù)雜的多輪對(duì)話,該模型都能憑借其擴(kuò)展的上下文窗口,更全面地理解上下文含義,給出更準(zhǔn)確、更符合邏輯的回答。?
隨著DeepSeekV3.1-Base在Hugging Face平臺(tái)熱度的持續(xù)上升,預(yù)計(jì)它將在人工智能研究、開(kāi)發(fā)等領(lǐng)域得到廣泛應(yīng)用和深入研究,為推動(dòng)行業(yè)發(fā)展注入新的活力。
在今年的ACL2025頒獎(jiǎng)典禮上,來(lái)自DeepSeek的梁文鋒作為通訊作者,與北京大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)表的論文榮獲最佳論文獎(jiǎng)。此次ACL 2025規(guī)??涨?,總投稿量達(dá)到8360篇,相較于去年的4407篇幾乎翻倍,競(jìng)爭(zhēng)異常激烈。
這篇獲獎(jiǎng)?wù)撐奶岢隽嗽∈枳⒁饬Γ∟SA)機(jī)制,長(zhǎng)久以來(lái),大語(yǔ)言模型處理長(zhǎng)文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機(jī)制計(jì)算復(fù)雜度隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng),處理64k長(zhǎng)度的文本時(shí),注意力計(jì)算竟然要占到總延遲的70-80%。而NSA機(jī)制通過(guò)算法與硬件的協(xié)同優(yōu)化,直接把長(zhǎng)文本處理速度提升了11倍,性能不僅沒(méi)降,反而還超越了傳統(tǒng)的全注意力模型。一作袁境陽(yáng)在會(huì)上發(fā)表演講時(shí),透露這項(xiàng)技術(shù)可以把上下文長(zhǎng)度擴(kuò)展到1百萬(wàn)tokens,將被應(yīng)用到下一個(gè)前沿模型中。結(jié)合論文發(fā)表于DeepSeek-R1推出之后,實(shí)驗(yàn)設(shè)置中也提到使用了DeepSeek-R1的蒸餾數(shù)據(jù)來(lái)微調(diào)新的模型,大家紛紛猜測(cè),這項(xiàng)技術(shù)將被用于下一代DeepSeek-V4以及DeepSeek-R2。
NSA采用了一種動(dòng)態(tài)分層的稀疏策略,通過(guò)三條并行的注意力分支協(xié)同工作。壓縮注意力負(fù)責(zé)捕捉粗粒度的全局信息模式,就像快速瀏覽全文抓住大意;選擇性注意力專注于序列中最重要的詞塊,相當(dāng)于精讀關(guān)鍵段落;滑動(dòng)注意力負(fù)責(zé)獲取局部的上下文信息,確保細(xì)節(jié)不丟失。這種設(shè)計(jì)不是簡(jiǎn)單地丟棄信息,而是通過(guò)精心設(shè)計(jì)的算法平衡了計(jì)算密度。并且,整個(gè)架構(gòu)針對(duì)現(xiàn)代GPU硬件進(jìn)行了深度優(yōu)化,實(shí)現(xiàn)了端到端的原生可訓(xùn)練模式。
在實(shí)際測(cè)試中,處理64k長(zhǎng)度序列時(shí),NSA在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢(shì)。解碼階段速度提升11.6倍,前向傳播提升9倍,反向傳播也有6倍的加速,無(wú)論是模型推理還是訓(xùn)練,都能獲得實(shí)實(shí)在在的效率提升。
在通用基準(zhǔn)測(cè)試中,采用NSA預(yù)訓(xùn)練的27B參數(shù)模型在9個(gè)評(píng)測(cè)指標(biāo)中有7個(gè)超越了全注意力基線。特別是在推理相關(guān)的基準(zhǔn)測(cè)試上,DROP提升了0.042,GSM8K提升了0.034,顯示出稀疏注意力在強(qiáng)制模型聚焦關(guān)鍵信息方面的獨(dú)特優(yōu)勢(shì)。在64k上下文的”大海撈針”測(cè)試中,NSA在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。在LongBench基準(zhǔn)測(cè)試上,NSA取得了0.469的平均分,不僅超越了全注意力基線(+0.032),更是大幅領(lǐng)先其他稀疏注意力方法。在需要復(fù)雜推理的多跳問(wèn)答任務(wù)上,NSA相比全注意力分別提升了0.087(HPQ)和0.051(2Wiki);在代碼理解任務(wù)(LCC)上提升了0.069;在段落檢索任務(wù)(PassR-en)上提升了0.075。研究團(tuán)隊(duì)還用DeepSeek-R1的數(shù)學(xué)推理數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),然后在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME24)上測(cè)試,結(jié)果顯示,NSA-R在8k上下文設(shè)置下的準(zhǔn)確率達(dá)到0.121,而全注意力模型只有0.046;即使在16k上下文下,NSA-R仍然保持0.146的準(zhǔn)確率,遠(yuǎn)超全注意力的0.092。
原生稀疏注意力(NSA)機(jī)制為長(zhǎng)文本處理帶來(lái)了全新的解決方案,隨著其被應(yīng)用到下一代DeepSeek-V4及DeepSeek-R2中,有望在更多領(lǐng)域推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展與應(yīng)用,值得我們持續(xù)關(guān)注。
DeepSeek官方宣布DeepSeek R1模型已完成小版本試升級(jí),用戶可前往官方網(wǎng)頁(yè)、APP、小程序測(cè)試,API接口和使用方式保持不變。此次升級(jí)基于2024年12月發(fā)布的DeepSeek V3-0324模型進(jìn)行后訓(xùn)練,模型參數(shù)達(dá)到685B。在提升計(jì)算資源配置的同時(shí),DeepSeek在后續(xù)訓(xùn)練中引入算法優(yōu)化機(jī)制,顯著提升了模型的推理能力。?
在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中,DeepSeekR1-0528取得了國(guó)內(nèi)所有模型中的優(yōu)異成績(jī),整體表現(xiàn)接近國(guó)際頂尖模型如o3與Gemini-2.5-Pro。相較于舊版R1,新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如,在AIME 2025測(cè)試中,新版模型準(zhǔn)確率從70%提升至87.5%。這一進(jìn)步得益于模型在推理過(guò)程中的思維深度增強(qiáng):在AIME 2025測(cè)試集上,舊版模型平均每題使用12Ktokens,而新版模型平均每題使用23Ktokens,表明其在解題過(guò)程中進(jìn)行了更為詳盡和深入的思考。?
此外,DeepSeek團(tuán)隊(duì)還通過(guò)蒸餾DeepSeek-R1-0528的思維鏈(Chain-of-Thought),對(duì)Qwen3-8BBase進(jìn)行后訓(xùn)練,得到了全新模型DeepSeek-R1-0528-Qwen3-8B。該模型在AIME 2024測(cè)試中達(dá)到了開(kāi)源模型中的最新SOTA(最先進(jìn))性能,較Qwen3-8B提升了10.0%,并與Qwen3-235B-thinking的表現(xiàn)相當(dāng)。?
DeepSeek-R1-0528-Qwen3-8B在面對(duì)問(wèn)題時(shí),會(huì)展示完整的思考過(guò)程,并且從多個(gè)角度客觀給出分析。這一特性使得該模型在處理復(fù)雜任務(wù)時(shí),能夠提供更全面、準(zhǔn)確的解決方案。DeepSeek方面表示,相信DeepSeek-R1-0528的思維鏈對(duì)于學(xué)術(shù)界推理模型的研究和工業(yè)界針對(duì)小模型的開(kāi)發(fā)都將具有重要意義。?
除了推理能力的提升,新版DeepSeek R1還針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了45%-50%左右,能夠更有效地提供準(zhǔn)確可靠的結(jié)果。在創(chuàng)意寫(xiě)作方面,更新后的R1模型進(jìn)一步優(yōu)化了議論文、小說(shuō)、散文等文體的輸出,能夠生成篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)呈現(xiàn)出更加貼近人類偏好的寫(xiě)作風(fēng)格。?
此次DeepSeek R1模型的小版本試升級(jí)以及全新模型DeepSeek-R1-0528-Qwen3-8B的發(fā)布,展示了DeepSeek團(tuán)隊(duì)在模型優(yōu)化和創(chuàng)新方面的持續(xù)努力,有望為AI領(lǐng)域帶來(lái)新的發(fā)展動(dòng)力。
人工智能領(lǐng)域又迎來(lái)一項(xiàng)重大突破。DeepSeek在知名的Hugging Face平臺(tái)上開(kāi)源了一款專注于數(shù)學(xué)定理證明的大語(yǔ)言模型——DeepSeek – Prover – V2 – 671B。這一模型的參數(shù)規(guī)模高達(dá) 6710億,采用了混合專家(MoE, Mixture – of – Experts)模式,最大位置嵌入達(dá)到了16.38萬(wàn),展現(xiàn)出處理極其復(fù)雜數(shù)學(xué)證明問(wèn)題的卓越能力。?
DeepSeek – Prover – V2 – 671B并非普通的通用聊天機(jī)器人,而是一個(gè)高度專業(yè)化的系統(tǒng),主要用于正式的定理證明,特別是使用Lean 4證明輔助語(yǔ)言。Lean 4是一種交互式工具,可用于將數(shù)學(xué)定義和證明形式化,并通過(guò)計(jì)算檢查其正確性。DeepSeek – Prover – V2 – 671B與該框架相互配合,可能會(huì)以Lean 4語(yǔ)法生成或建議證明步驟,然后由Lean 4環(huán)境本身檢查,以確保邏輯的合理性,旨在讓復(fù)雜的形式驗(yàn)證任務(wù)變得更加易于處理。?
在架構(gòu)設(shè)計(jì)上,雖然該模型擁有龐大 6710 億個(gè)參數(shù),并以安全的safetensors格式分布存儲(chǔ),但由于采用了混合專家(MoE)架構(gòu),在推理過(guò)程中,只有一部分參數(shù)會(huì)被激活,有效平衡了模型規(guī)模與計(jì)算成本。這一創(chuàng)新設(shè)計(jì)不僅提升了模型的運(yùn)行效率,也使得其在處理大規(guī)模數(shù)學(xué)問(wèn)題時(shí)能夠保持高效與準(zhǔn)確。?
這款模型的潛在應(yīng)用場(chǎng)景十分廣泛。它可以自動(dòng)生成詳細(xì)的證明步驟,幫助研究人員探索新的定理,為數(shù)學(xué)研究提供有力支持;能夠檢測(cè)現(xiàn)有證明中的錯(cuò)誤,提升數(shù)學(xué)證明的準(zhǔn)確性和可靠性;在教育領(lǐng)域,也可以輔助教學(xué),幫助學(xué)生更好地理解復(fù)雜的數(shù)學(xué)證明過(guò)程。這一成果建立在DeepSeek之前的工作基礎(chǔ)之上,例如70億參數(shù)的DeepSeek – Prover – V1.5,后者采用了如強(qiáng)化學(xué)習(xí)與證明輔助反饋(RL PAF, Reinforcement Learning from Proof Assistant Feedback)等技術(shù),而DeepSeek – Prover – V2 – 671B則在此基礎(chǔ)上進(jìn)行了大規(guī)模的升級(jí)與優(yōu)化。
此次DeepSeek選擇在Hugging Face平臺(tái)開(kāi)源DeepSeek – Prover – V2 – 671B,具有重要意義。Hugging Face作為全球知名的開(kāi)源人工智能平臺(tái),擁有龐大的開(kāi)發(fā)者社區(qū)和豐富的資源。通過(guò)在此平臺(tái)開(kāi)源,DeepSeek – Prover – V2 – 671B能夠讓全球更多的研究人員、開(kāi)發(fā)者便捷地獲取和使用該模型,促進(jìn)數(shù)學(xué)定理證明領(lǐng)域的研究進(jìn)展,推動(dòng)人工智能與數(shù)學(xué)領(lǐng)域的深度融合與創(chuàng)新發(fā)展。
OPPO小布助手已推出網(wǎng)頁(yè)版,前往xiaobu.coloros.com即可體驗(yàn),登錄OPPO賬號(hào)還可以同步手機(jī)端的歷史對(duì)話記錄。
網(wǎng)頁(yè)版小布助手也已接入滿血版DeepSeek,并且支持聯(lián)網(wǎng)搜索。
小布助手是OPPO推出的一款智能語(yǔ)音助手,內(nèi)置在OPPO智能手機(jī)和IoT設(shè)備中。2021年2月,小布助手月活躍用戶數(shù)破億,成為國(guó)內(nèi)首個(gè)月活破億的手機(jī)語(yǔ)音助手。2023年10月11日,OPPO宣布基于AndesGPT大模型打造的全新小布第一輪公測(cè)正式開(kāi)啟。
2024年6月18日,OPPO發(fā)布新版本小布助手App。2025年3月,ColorOS官方宣布其最新的DeepSeek-R1滿血版系統(tǒng)升級(jí)全面開(kāi)放,全新小布助手支持一鍵AI喚醒和語(yǔ)音對(duì)話,還具備聯(lián)網(wǎng)搜索和結(jié)果導(dǎo)出等強(qiáng)大功能。
深度求索(DeepSeek)與清華大學(xué)合作,成功推出一項(xiàng)創(chuàng)新性AI對(duì)齊技術(shù) ——SPCT(自我原則點(diǎn)評(píng)調(diào)優(yōu))。這一技術(shù)的誕生,打破了傳統(tǒng)模式對(duì)海量訓(xùn)練數(shù)據(jù)的依賴,通過(guò)在推理階段對(duì)輸出質(zhì)量進(jìn)行動(dòng)態(tài)優(yōu)化,為AI模型性能提升開(kāi)辟了新路徑。?
根據(jù)研究團(tuán)隊(duì)發(fā)表的論文,SPCT技術(shù)依托 “原則合成-響應(yīng)生成-批判過(guò)濾-原則優(yōu)化”的遞歸架構(gòu),賦予模型在推理過(guò)程中動(dòng)態(tài)修正輸出的能力。具體而言,SPCT方法分為兩個(gè)關(guān)鍵階段。首先是拒絕式微調(diào)作為冷啟動(dòng)環(huán)節(jié),此階段使GRM模型適應(yīng)不同類的輸入,并以正確格式生成原則與點(diǎn)評(píng)內(nèi)容。隨后進(jìn)入基于規(guī)則的在線強(qiáng)化學(xué)習(xí)階段,該階段采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)機(jī)制,激勵(lì)GRM模型生成更優(yōu)質(zhì)的原則與點(diǎn)評(píng)內(nèi)容,有效提升了推理階段的可擴(kuò)展性。?
在實(shí)際測(cè)試中,搭載SPCT技術(shù)的270億參數(shù)DeepSeek – GRM模型表現(xiàn)卓越。通過(guò)每查詢進(jìn)行32次采樣的推理計(jì)算,該模型成功達(dá)到了6710億參數(shù)規(guī)模模型的性能水平。這一成果得益于其硬件感知設(shè)計(jì),采用混合專家系統(tǒng)(MoE),不僅支持128k token的上下文窗口,還將單查詢延遲控制在僅1.4秒。?
值得一提的是,SPCT技術(shù)顯著降低了高性能模型的部署門(mén)檻。以DeepSeek – GRM模型為例,其訓(xùn)練成本約為1.2萬(wàn)美元,卻在MT – Bench測(cè)試中獲得了8.35的高分。與之對(duì)比,3400億參數(shù)Nemotron – 4模型獲得8.41分需耗費(fèi)120萬(wàn)美元,而OpenAI擁有1.8萬(wàn)億參數(shù)的GPT – 4o模型雖取得8.72分,但成本高達(dá)630萬(wàn)美元,DeepSeek – GRM的成本僅為GPT – 4o的五百二十五分之一。此外,SPCT 技術(shù)減少了90%的人工標(biāo)注需求,能耗相較于DPO降低73%,為實(shí)時(shí)機(jī)器人控制等動(dòng)態(tài)場(chǎng)景的應(yīng)用提供了新的可能。
異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟攜手眾多生態(tài)合作伙伴齊聚燧弘華創(chuàng)慶陽(yáng)綠色智算中心,共同見(jiàn)證了DeepSeek大模型落地取得的重大突破。在此次活動(dòng)中,聯(lián)想與燧弘華創(chuàng)的合作成果尤為引人注目,雙方攜手搭建的萬(wàn)全異構(gòu)智算平臺(tái),成功突破算力瓶頸,在3000并發(fā)的高負(fù)載情況下,DeepSeek大模型的總吞吐量超過(guò)8000 tokens/s,為提升用戶體驗(yàn)注入了強(qiáng)大動(dòng)力。?
燧弘華創(chuàng)慶陽(yáng)綠色智算中心作為區(qū)域算力發(fā)展的關(guān)鍵力量,自成立以來(lái)便致力于為各類AI 應(yīng)用提供堅(jiān)實(shí)的算力支撐。而聯(lián)想作為全球領(lǐng)先的科技企業(yè),在AI基礎(chǔ)設(shè)施領(lǐng)域有著深厚的技術(shù)積累與豐富的實(shí)踐經(jīng)驗(yàn)。此次雙方強(qiáng)強(qiáng)聯(lián)合,旨在通過(guò)技術(shù)創(chuàng)新解決當(dāng)前大模型應(yīng)用中面臨的算力難題。?
為了實(shí)現(xiàn)這一目標(biāo),聯(lián)想與燧弘華創(chuàng)的技術(shù)團(tuán)隊(duì)進(jìn)行了深入?yún)f(xié)作,采取了一系列創(chuàng)新舉措。在硬件層面,聯(lián)想問(wèn)天WA5480 G3服務(wù)器搭載了第四代英特爾?至強(qiáng)?可擴(kuò)展處理器,為平臺(tái)提供了強(qiáng)勁的計(jì)算核心。
同時(shí),通過(guò)訪存優(yōu)化技術(shù),大幅提升了數(shù)據(jù)訪問(wèn)速度,減少了數(shù)據(jù)讀取延遲,讓處理器能夠更快地獲取所需數(shù)據(jù)進(jìn)行運(yùn)算。顯存優(yōu)化方面,對(duì)GPU顯存的管理與調(diào)度進(jìn)行了精細(xì)優(yōu)化,確保在大規(guī)模并發(fā)運(yùn)算時(shí),顯存能夠高效利用,避免了因顯存不足或使用不合理導(dǎo)致的性能下降。PCIe 5.0全互聯(lián)架構(gòu)創(chuàng)新則進(jìn)一步提升了數(shù)據(jù)傳輸帶寬,使得服務(wù)器內(nèi)部各組件之間的數(shù)據(jù)交互更加順暢,為大模型的高效運(yùn)行提供了有力保障。?
在軟件框架層面,技術(shù)團(tuán)隊(duì)精選SGLang框架中性能最優(yōu)算子,對(duì)大模型的算法執(zhí)行過(guò)程進(jìn)行了深度優(yōu)化。這些性能最優(yōu)算子能夠以更高的效率執(zhí)行模型的計(jì)算任務(wù),從而在整體上提升大模型的運(yùn)行性能。通過(guò)這一系列從硬件到軟件的全方位優(yōu)化,單機(jī)服務(wù)器運(yùn)行大模型的性能實(shí)現(xiàn)了質(zhì)的飛躍,在3000并發(fā)這一嚴(yán)苛條件下,總吞吐量成功突破8000 tokens/s,持續(xù)為 DeepSeek 滿血版用戶帶來(lái)更加流暢、高效的使用體驗(yàn)。