
在今年的ACL2025頒獎典禮上,來自DeepSeek的梁文鋒作為通訊作者,與北京大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)表的論文榮獲最佳論文獎。此次ACL 2025規(guī)模空前,總投稿量達(dá)到8360篇,相較于去年的4407篇幾乎翻倍,競爭異常激烈。
這篇獲獎?wù)撐奶岢隽嗽∈枳⒁饬Γ∟SA)機(jī)制,長久以來,大語言模型處理長文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機(jī)制計(jì)算復(fù)雜度隨序列長度呈平方級增長,處理64k長度的文本時(shí),注意力計(jì)算竟然要占到總延遲的70-80%。而NSA機(jī)制通過算法與硬件的協(xié)同優(yōu)化,直接把長文本處理速度提升了11倍,性能不僅沒降,反而還超越了傳統(tǒng)的全注意力模型。一作袁境陽在會上發(fā)表演講時(shí),透露這項(xiàng)技術(shù)可以把上下文長度擴(kuò)展到1百萬tokens,將被應(yīng)用到下一個(gè)前沿模型中。結(jié)合論文發(fā)表于DeepSeek-R1推出之后,實(shí)驗(yàn)設(shè)置中也提到使用了DeepSeek-R1的蒸餾數(shù)據(jù)來微調(diào)新的模型,大家紛紛猜測,這項(xiàng)技術(shù)將被用于下一代DeepSeek-V4以及DeepSeek-R2。
NSA采用了一種動態(tài)分層的稀疏策略,通過三條并行的注意力分支協(xié)同工作。壓縮注意力負(fù)責(zé)捕捉粗粒度的全局信息模式,就像快速瀏覽全文抓住大意;選擇性注意力專注于序列中最重要的詞塊,相當(dāng)于精讀關(guān)鍵段落;滑動注意力負(fù)責(zé)獲取局部的上下文信息,確保細(xì)節(jié)不丟失。這種設(shè)計(jì)不是簡單地丟棄信息,而是通過精心設(shè)計(jì)的算法平衡了計(jì)算密度。并且,整個(gè)架構(gòu)針對現(xiàn)代GPU硬件進(jìn)行了深度優(yōu)化,實(shí)現(xiàn)了端到端的原生可訓(xùn)練模式。
在實(shí)際測試中,處理64k長度序列時(shí),NSA在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢。解碼階段速度提升11.6倍,前向傳播提升9倍,反向傳播也有6倍的加速,無論是模型推理還是訓(xùn)練,都能獲得實(shí)實(shí)在在的效率提升。
在通用基準(zhǔn)測試中,采用NSA預(yù)訓(xùn)練的27B參數(shù)模型在9個(gè)評測指標(biāo)中有7個(gè)超越了全注意力基線。特別是在推理相關(guān)的基準(zhǔn)測試上,DROP提升了0.042,GSM8K提升了0.034,顯示出稀疏注意力在強(qiáng)制模型聚焦關(guān)鍵信息方面的獨(dú)特優(yōu)勢。在64k上下文的”大海撈針”測試中,NSA在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。在LongBench基準(zhǔn)測試上,NSA取得了0.469的平均分,不僅超越了全注意力基線(+0.032),更是大幅領(lǐng)先其他稀疏注意力方法。在需要復(fù)雜推理的多跳問答任務(wù)上,NSA相比全注意力分別提升了0.087(HPQ)和0.051(2Wiki);在代碼理解任務(wù)(LCC)上提升了0.069;在段落檢索任務(wù)(PassR-en)上提升了0.075。研究團(tuán)隊(duì)還用DeepSeek-R1的數(shù)學(xué)推理數(shù)據(jù)對模型進(jìn)行微調(diào),然后在美國數(shù)學(xué)邀請賽(AIME24)上測試,結(jié)果顯示,NSA-R在8k上下文設(shè)置下的準(zhǔn)確率達(dá)到0.121,而全注意力模型只有0.046;即使在16k上下文下,NSA-R仍然保持0.146的準(zhǔn)確率,遠(yuǎn)超全注意力的0.092。
原生稀疏注意力(NSA)機(jī)制為長文本處理帶來了全新的解決方案,隨著其被應(yīng)用到下一代DeepSeek-V4及DeepSeek-R2中,有望在更多領(lǐng)域推動人工智能技術(shù)的進(jìn)一步發(fā)展與應(yīng)用,值得我們持續(xù)關(guān)注。








