昆侖萬維發(fā)布國內(nèi)首個(gè)AI短片視頻生成模型

?? 由 文心大模型 生成的文章摘要

2月18日,昆侖萬維發(fā)布了國內(nèi)首個(gè)AI短片創(chuàng)作視頻生成模型SkyReels-V1,以及國內(nèi)首個(gè)基于視頻基座模型的SOTA級(jí)情緒動(dòng)作可控算法SkyReels-A1。這一發(fā)布標(biāo)志著昆侖萬維在AI視頻領(lǐng)域取得了重大突破,為行業(yè)發(fā)展注入了新的活力。

SkyReels-V1作為一款專門為AI短片創(chuàng)作打造的開源視頻生成模型,具備卓越的能力。它能夠精準(zhǔn)生成電影級(jí)別的人物微表情和動(dòng)作,在全球范圍內(nèi),是為數(shù)不多的開源視頻生成模型之一,并且在同類開源模型中性能表現(xiàn)十分突出。該模型支持33種細(xì)膩入微的人物表情以及400多種自然流暢的動(dòng)作組合,能夠高度還原人類豐富的情感表達(dá),呈現(xiàn)出電影級(jí)別的唯美光影效果。

基于大量?jī)?yōu)質(zhì)影視數(shù)據(jù)進(jìn)行深度訓(xùn)練,SkyReels-V1同時(shí)支持基于文本的視頻生成和基于圖像的視頻生成功能,其參數(shù)規(guī)模在開源模型中處于領(lǐng)先地位,展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力。

從技術(shù)層面深入剖析,在昆侖萬維自研的推理優(yōu)化框架“SkyReels-Infer”的有力支持下,SkyReels-V1的推理效率得到了大幅提升?;趩螐?090顯卡進(jìn)行推理,生成544p分辨率的視頻僅需80秒,并且支持分布式多卡并行、Context Parallel、CFG Parallel、VAE Parallel等先進(jìn)技術(shù),極大地提高了運(yùn)算效率。同時(shí),采用fp8量化以及參數(shù)級(jí)offload技術(shù),有效滿足了低VRAM用戶級(jí)顯卡的運(yùn)行需求,讓更多用戶能夠享受到模型帶來的便利。

此外,通過支持flash Attention、SageAttention以及模型編譯優(yōu)化等技術(shù),進(jìn)一步優(yōu)化了時(shí)延問題,基于開源diffuser庫,也使得模型的易用性得到顯著提升。

SkyReels-A1則是國內(nèi)首個(gè)SOTA級(jí)情緒動(dòng)作可控算法,該算法支持視頻驅(qū)動(dòng)的電影級(jí)情緒捕捉,以及高逼真度的微表情還原。它可以根據(jù)任意人體比例,生成極為逼真的動(dòng)態(tài)人物視頻,還支持側(cè)臉表情控制和眉眼微表情生成,極大地拓展了人物動(dòng)作驅(qū)動(dòng)的范圍。與同類算法相比,SkyReels-A1在情緒動(dòng)作的復(fù)雜度和自然度方面表現(xiàn)更為出色,能夠?yàn)橛脩魩砀觾?yōu)質(zhì)、真實(shí)的視頻創(chuàng)作體驗(yàn)。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」