美團(tuán)開源LongCat-Video模型:5分鐘長(zhǎng)視頻生成無(wú)損耗,推理速度提升10倍

?? 由 文心大模型 生成的文章摘要

美團(tuán)LongCat團(tuán)隊(duì)正式發(fā)布并開源新一代視頻生成模型LongCat-Video。該模型以Diffusion Transformer(DiT)架構(gòu)為基礎(chǔ),在文生視頻、圖生視頻兩大核心任務(wù)上達(dá)到開源領(lǐng)域最先進(jìn)水平(SOTA),更憑借突破性技術(shù)實(shí)現(xiàn)5分鐘級(jí)別長(zhǎng)視頻的穩(wěn)定生成,同時(shí)通過三重優(yōu)化將推理速度提升至10.1倍,為長(zhǎng)視頻生成技術(shù)樹立新標(biāo)桿。

LongCat-Video的核心優(yōu)勢(shì)源于三大關(guān)鍵技術(shù)創(chuàng)新的深度融合。其采用視頻續(xù)寫任務(wù)預(yù)訓(xùn)練策略,搭配Block-CausalAttention機(jī)制與GRPO后訓(xùn)練方法,從底層架構(gòu)上保障長(zhǎng)時(shí)序視頻的連貫生成能力。即便處理93幀以上的長(zhǎng)序列輸入,模型仍能維持跨幀時(shí)序一致性與物理運(yùn)動(dòng)合理性,徹底解決了行業(yè)內(nèi)普遍存在的“時(shí)長(zhǎng)增加則質(zhì)量下降”難題。

為進(jìn)一步降低長(zhǎng)視頻推理的計(jì)算冗余,模型創(chuàng)新性融合塊稀疏注意力(BSA)與條件token緩存技術(shù),在生成5分鐘級(jí)長(zhǎng)視頻時(shí),有效規(guī)避了色彩漂移、畫質(zhì)降解、動(dòng)作斷裂等常見痛點(diǎn),實(shí)現(xiàn)無(wú)質(zhì)量損失的高清輸出。136億參數(shù)的基座模型,通過文本-視頻對(duì)齊、視覺質(zhì)量、運(yùn)動(dòng)質(zhì)量、整體質(zhì)量四大維度的嚴(yán)格驗(yàn)證,在關(guān)鍵指標(biāo)上展現(xiàn)出顯著優(yōu)勢(shì)。

針對(duì)高分辨率、高幀率視頻生成的計(jì)算瓶頸,LongCat-Video構(gòu)建了“二階段粗到精生成(C2F)+塊稀疏注意力(BSA)+模型蒸餾”的三重優(yōu)化體系,最終將視頻推理速度提升至10.1倍,實(shí)現(xiàn)效率與質(zhì)量的最優(yōu)平衡。這一突破讓高質(zhì)量長(zhǎng)視頻生成從“耗時(shí)費(fèi)力”走向“高效便捷”,大幅降低了技術(shù)落地的門檻。

在具體功能上,模型通過“條件幀數(shù)量”實(shí)現(xiàn)靈活的任務(wù)區(qū)分,形成完整任務(wù)閉環(huán):文生視頻無(wú)需條件幀,可生成720p、30fps高清內(nèi)容,精準(zhǔn)解析文本中的物體、場(chǎng)景、風(fēng)格等細(xì)節(jié)指令;圖生視頻僅需1幀參考圖,就能嚴(yán)格保留主體屬性、背景關(guān)系與藝術(shù)風(fēng)格,支持詳細(xì)指令、簡(jiǎn)潔描述乃至空指令等多種輸入形式;視頻續(xù)寫作為核心差異化能力,可基于多幀前序內(nèi)容自然續(xù)接,為長(zhǎng)敘事視頻創(chuàng)作提供原生技術(shù)支撐。

美團(tuán)LongCat團(tuán)隊(duì)表示,此次開源LongCat-Video是探索“世界模型”的重要起點(diǎn)。作為能夠建模物理規(guī)律、時(shí)空演化與場(chǎng)景邏輯的智能系統(tǒng),視頻生成技術(shù)被視作構(gòu)建“世界模型”的關(guān)鍵路徑——通過壓縮幾何、語(yǔ)義、物理等多維度知識(shí),讓人工智能在數(shù)字空間中模擬真實(shí)世界的運(yùn)行。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」