综合激情五月综合激情五月激情1 综合成人亚洲网友偷自拍 ,在线观看av网站永久,曰本无码人妻丰满熟妇啪啪 http://pinmang.cn 93913成立于2015年9月13日,是目前國內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務商,通過93913為用戶提供信息服務以及元宇宙&AI領域相關廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務。 Mon, 27 Oct 2025 16:30:00 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 美團開源LongCat-Video模型:5分鐘長視頻生成無損耗,推理速度提升10倍 http://pinmang.cn/116087.html http://pinmang.cn/116087.html#respond Mon, 27 Oct 2025 16:30:00 +0000 http://pinmang.cn/?p=116087

美團LongCat團隊正式發(fā)布并開源新一代視頻生成模型LongCat-Video。該模型以Diffusion Transformer(DiT)架構為基礎,在文生視頻、圖生視頻兩大核心任務上達到開源領域最先進水平(SOTA),更憑借突破性技術實現(xiàn)5分鐘級別長視頻的穩(wěn)定生成,同時通過三重優(yōu)化將推理速度提升至10.1倍,為長視頻生成技術樹立新標桿。

LongCat-Video的核心優(yōu)勢源于三大關鍵技術創(chuàng)新的深度融合。其采用視頻續(xù)寫任務預訓練策略,搭配Block-CausalAttention機制與GRPO后訓練方法,從底層架構上保障長時序視頻的連貫生成能力。即便處理93幀以上的長序列輸入,模型仍能維持跨幀時序一致性與物理運動合理性,徹底解決了行業(yè)內(nèi)普遍存在的“時長增加則質(zhì)量下降”難題。

為進一步降低長視頻推理的計算冗余,模型創(chuàng)新性融合塊稀疏注意力(BSA)與條件token緩存技術,在生成5分鐘級長視頻時,有效規(guī)避了色彩漂移、畫質(zhì)降解、動作斷裂等常見痛點,實現(xiàn)無質(zhì)量損失的高清輸出。136億參數(shù)的基座模型,通過文本-視頻對齊、視覺質(zhì)量、運動質(zhì)量、整體質(zhì)量四大維度的嚴格驗證,在關鍵指標上展現(xiàn)出顯著優(yōu)勢。

針對高分辨率、高幀率視頻生成的計算瓶頸,LongCat-Video構建了“二階段粗到精生成(C2F)+塊稀疏注意力(BSA)+模型蒸餾”的三重優(yōu)化體系,最終將視頻推理速度提升至10.1倍,實現(xiàn)效率與質(zhì)量的最優(yōu)平衡。這一突破讓高質(zhì)量長視頻生成從“耗時費力”走向“高效便捷”,大幅降低了技術落地的門檻。

在具體功能上,模型通過“條件幀數(shù)量”實現(xiàn)靈活的任務區(qū)分,形成完整任務閉環(huán):文生視頻無需條件幀,可生成720p、30fps高清內(nèi)容,精準解析文本中的物體、場景、風格等細節(jié)指令;圖生視頻僅需1幀參考圖,就能嚴格保留主體屬性、背景關系與藝術風格,支持詳細指令、簡潔描述乃至空指令等多種輸入形式;視頻續(xù)寫作為核心差異化能力,可基于多幀前序內(nèi)容自然續(xù)接,為長敘事視頻創(chuàng)作提供原生技術支撐。

美團LongCat團隊表示,此次開源LongCat-Video是探索“世界模型”的重要起點。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng),視頻生成技術被視作構建“世界模型”的關鍵路徑——通過壓縮幾何、語義、物理等多維度知識,讓人工智能在數(shù)字空間中模擬真實世界的運行。

「93913原創(chuàng)內(nèi)容,轉載請注明出處」
]]>
http://pinmang.cn/116087.html/feed 0