
面壁智能正式發(fā)布端側(cè)大模型MiniCPM 4.0,引發(fā)行業(yè)廣泛關(guān)注。該模型憑借自研的CPM.cu推理框架,在性能上實現(xiàn)了重大突破,為端側(cè)大模型的發(fā)展樹立了新的標(biāo)桿。
?
據(jù)了解,MiniCPM 4.0通過CPM.cu推理框架,在極限場景下實現(xiàn)了最高220倍的提速,常規(guī)場景下也能達(dá)到5倍的速度提升。這一顯著的性能提升,得益于面壁智能在投機(jī)采樣、模型壓縮量化以及端側(cè)部署框架等方面的創(chuàng)新。通過這些創(chuàng)新,MiniCPM4.0實現(xiàn)了模型體積縮小90%,同時大幅提升了運(yùn)行速度,為端側(cè)推理帶來了“從天生到終生”的絲滑體驗。?
此次發(fā)布的MiniCPM 4.0系列模型包含8B和0.5B兩種參數(shù)規(guī)模,以滿足不同場景的需求。其中,8B版本采用了創(chuàng)新的稀疏架構(gòu),被稱為“閃電稀疏版”。針對單一架構(gòu)難以兼顧長、短文本不同場景的技術(shù)難題,MiniCPM 4.0-8B引入了“高效雙頻換擋”機(jī)制。該機(jī)制能夠根據(jù)任務(wù)特征自動切換注意力模式,在處理高難度的長文本、深度思考任務(wù)時,啟用稀疏注意力以降低計算復(fù)雜度;在短文本場景下,切換至稠密注意力以確保精度,實現(xiàn)了長、短文本切換的高效響應(yīng)。?
而0.5B版本則憑借其小巧靈活的特點,被形象地譽(yù)為“輕巧靈動的最強(qiáng)小小鋼炮”。在保持高性能的同時,極大地降低了計算資源的消耗,尤其適合輕量級應(yīng)用場景。?
兼容性方面,MiniCPM 4.0表現(xiàn)出色,支持在vLLM、SGLang、LlamaFactory、XTuner等多個開源框架上進(jìn)行部署,為開發(fā)者和企業(yè)用戶提供了更多的選擇,方便其根據(jù)自身需求進(jìn)行靈活配置和應(yīng)用開發(fā)。無論是自然語言處理、文本生成,還是數(shù)據(jù)分析等任務(wù),MiniCPM4.0都能憑借其強(qiáng)大的性能輕松應(yīng)對。?
英特爾與面壁智能在模型開發(fā)階段就緊密合作,通過硬件感知的草稿模型優(yōu)化策略,結(jié)合英特爾加速套件與KVCache內(nèi)存增強(qiáng)技術(shù),實現(xiàn)了端到端推理效率2.2倍的提升。目前,具有CPU、GPU、NPU三個AI運(yùn)算引擎的英特爾酷睿Ultra處理器已迅速對MiniCPM 4.0進(jìn)行適配,并借助OpenVINO?工具套件為其提供優(yōu)化的卓越性能表現(xiàn)。英特爾再次在NPU上對模型發(fā)布提供第零日(Day0)支持,為不同參數(shù)量模型和應(yīng)用場景提供了多樣化、有針對性的平臺支持。








