
國內(nèi)人工智能公司杭州深度求索(DeepSeek)宣布全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源。DeepSeek V3允許開發(fā)者下載和修改以用于大多數(shù)應(yīng)用程序,包括商業(yè)應(yīng)用。
DeepSeek V3可以處理一系列基于文本的工作負(fù)載和任務(wù),例如編碼、翻譯以及根據(jù)描述性提示撰寫文章和電子郵件。
根據(jù)深度求索內(nèi)部基準(zhǔn)測試,DeepSeek V3的表現(xiàn)優(yōu)于可下載的“公開”可用模型和只能通過API訪問的“封閉”AI 模型。在編程競賽平臺(tái)Codeforces舉辦的編碼競賽子集中,DeepSeek V3的表現(xiàn)優(yōu)于其他模型,包括Llama 3.1 405B、GPT-4o和通義千問2.5 72B。
DeepSeek V3在Aider Polyglot測試中也擊敗了競爭對(duì)手,該測試旨在衡量模型是否能夠成功編寫出可集成到現(xiàn)有代碼中的新代碼。
深度求索聲稱DeepSeek V3是在包含14.8萬億個(gè)token的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,在數(shù)據(jù)科學(xué)中,token用于表示原始數(shù)據(jù)的位- 100萬個(gè)token相當(dāng)于約75萬個(gè)單詞。
DeepSeek V3龐大的不僅僅是訓(xùn)練集,DeepSeek V3的規(guī)模也十分巨大:擁有6710億個(gè)參數(shù),在AI開發(fā)平臺(tái) Hugging Face上則有6850億個(gè)參數(shù)(參數(shù)是模型用來進(jìn)行預(yù)測或決策的內(nèi)部變量)這大約是Llama 3.1 405B的1.6倍,后者有4050億個(gè)參數(shù)。
而參數(shù)數(shù)量通常與技能相關(guān);參數(shù)較多的模型往往比參數(shù)較少的模型表現(xiàn)更好。但大型模型也需要更強(qiáng)大的硬件才能運(yùn)行,未優(yōu)化的DeepSeek V3版本需要一組高端GPU才能以合理的速度回答問題。








