美團正式向外界發(fā)布了LongCat-Flash-Chat,并同步將其在Github、HuggingFace平臺開源。
據(jù)悉,LongCat-Flash-Chat采用創(chuàng)新性混合專家模型(Mixture-of-Experts,MoE)架構(gòu),總參數(shù)560B,激活參數(shù)18.6B-31.3B(平均27B),實現(xiàn)了計算效率與性能的雙重優(yōu)化。根據(jù)多項基準測試綜合評估,作為一款非思考型基礎(chǔ)模型,LongCat-Flash-Chat在僅激活少量參數(shù)的前提下,性能比肩當下領(lǐng)先的主流模型,尤其在智能體任務中具備突出優(yōu)勢。此外,因為面向推理效率的設(shè)計和創(chuàng)新,LongCat-Flash-Chat具有明顯更快的推理速度,更適合于耗時較長的復雜智能體應用。
在模型架構(gòu)層面,LongCat-Flash引入“零計算專家(Zero-ComputationExperts)”機制,總參數(shù)量560B,每個token依據(jù)上下文需求僅激活18.6B-31.3B參數(shù),實現(xiàn)算力按需分配和高效利用。為控制總算力消耗,訓練過程采用PID控制器實時微調(diào)專家偏置,將單token平均激活量穩(wěn)定在約27B。
同時,LongCat-Flash在層間鋪設(shè)跨層通道,使MoE的通信和計算能很大程度上并行,極大提高了訓練和推理效率。配合定制化的底層優(yōu)化,LongCat-Flash在30天內(nèi)完成高效訓練,并在H800上實現(xiàn)單用戶100+tokens/s的推理速度。LongCat-Flash還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,并結(jié)合了多項策略保證訓練穩(wěn)定性,使得訓練全程高效且順利。
針對智能體(Agentic)能力,LongCat-Flash自建了Agentic評測集指導數(shù)據(jù)策略,并在訓練全流程進行了全面的優(yōu)化,包括使用多智能體方法生成多樣化高質(zhì)量的軌跡數(shù)據(jù)等,實現(xiàn)了優(yōu)異的智能體能力。
通過算法和工程層面的聯(lián)合設(shè)計,LongCat-Flash在理論上的成本和速度都大幅領(lǐng)先行業(yè)同等規(guī)模、甚至規(guī)模更小的模型;通過系統(tǒng)優(yōu)化,LongCat-Flash在H800上達成了100token/s的生成速度,在保持極致生成速度的同時,輸出成本低至5元/百萬token。