
美團LongCat團隊正式發(fā)布并開源新一代視頻生成模型LongCat-Video。該模型以Diffusion Transformer(DiT)架構(gòu)為基礎(chǔ),在文生視頻、圖生視頻兩大核心任務(wù)上達(dá)到開源領(lǐng)域最先進水平(SOTA),更憑借突破性技術(shù)實現(xiàn)5分鐘級別長視頻的穩(wěn)定生成,同時通過三重優(yōu)化將推理速度提升至10.1倍,為長視頻生成技術(shù)樹立新標(biāo)桿。
LongCat-Video的核心優(yōu)勢源于三大關(guān)鍵技術(shù)創(chuàng)新的深度融合。其采用視頻續(xù)寫任務(wù)預(yù)訓(xùn)練策略,搭配Block-CausalAttention機制與GRPO后訓(xùn)練方法,從底層架構(gòu)上保障長時序視頻的連貫生成能力。即便處理93幀以上的長序列輸入,模型仍能維持跨幀時序一致性與物理運動合理性,徹底解決了行業(yè)內(nèi)普遍存在的“時長增加則質(zhì)量下降”難題。
為進一步降低長視頻推理的計算冗余,模型創(chuàng)新性融合塊稀疏注意力(BSA)與條件token緩存技術(shù),在生成5分鐘級長視頻時,有效規(guī)避了色彩漂移、畫質(zhì)降解、動作斷裂等常見痛點,實現(xiàn)無質(zhì)量損失的高清輸出。136億參數(shù)的基座模型,通過文本-視頻對齊、視覺質(zhì)量、運動質(zhì)量、整體質(zhì)量四大維度的嚴(yán)格驗證,在關(guān)鍵指標(biāo)上展現(xiàn)出顯著優(yōu)勢。
針對高分辨率、高幀率視頻生成的計算瓶頸,LongCat-Video構(gòu)建了“二階段粗到精生成(C2F)+塊稀疏注意力(BSA)+模型蒸餾”的三重優(yōu)化體系,最終將視頻推理速度提升至10.1倍,實現(xiàn)效率與質(zhì)量的最優(yōu)平衡。這一突破讓高質(zhì)量長視頻生成從“耗時費力”走向“高效便捷”,大幅降低了技術(shù)落地的門檻。
在具體功能上,模型通過“條件幀數(shù)量”實現(xiàn)靈活的任務(wù)區(qū)分,形成完整任務(wù)閉環(huán):文生視頻無需條件幀,可生成720p、30fps高清內(nèi)容,精準(zhǔn)解析文本中的物體、場景、風(fēng)格等細(xì)節(jié)指令;圖生視頻僅需1幀參考圖,就能嚴(yán)格保留主體屬性、背景關(guān)系與藝術(shù)風(fēng)格,支持詳細(xì)指令、簡潔描述乃至空指令等多種輸入形式;視頻續(xù)寫作為核心差異化能力,可基于多幀前序內(nèi)容自然續(xù)接,為長敘事視頻創(chuàng)作提供原生技術(shù)支撐。
美團LongCat團隊表示,此次開源LongCat-Video是探索“世界模型”的重要起點。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng),視頻生成技術(shù)被視作構(gòu)建“世界模型”的關(guān)鍵路徑——通過壓縮幾何、語義、物理等多維度知識,讓人工智能在數(shù)字空間中模擬真實世界的運行。








