
阿里巴巴正式宣布開源其電影級視頻生成模型通義萬相Wan2.2。這一舉措在AI視頻生成領(lǐng)域掀起了波瀾,為廣大開發(fā)者、創(chuàng)作者以及相關(guān)企業(yè)帶來了全新的機遇與可能。?
通義萬相Wan2.2具備獨特且強大的功能,它開創(chuàng)性地將光影、色彩、鏡頭語言這三大電影美學核心元素融入模型之中。通過對超過60個直觀可控參數(shù)的自由組合,創(chuàng)作者能夠輕松駕馭電影級畫面的制作,極大地提升了創(chuàng)作效率。目前,該模型單次可生成5秒的高清視頻,用戶可借助多輪提示詞,逐步完成短劇制作。并且,阿里團隊表示,未來通義萬相還會持續(xù)升級,進一步增加單次視頻生成的時長,為視頻創(chuàng)作提供更高效的支持。?
此次開源,通義萬相Wan2.2共推出三款模型,分別是文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統(tǒng)一視頻生成(Wan2.2-IT2V-5B)。其中,文生視頻模型和圖生視頻模型在業(yè)界首次采用了MoE(混合專家模型)架構(gòu),總參數(shù)量達27B,激活參數(shù)14B。這兩款模型由高噪聲專家模型和低噪專家模型協(xié)同運作,高噪聲專家模型主要負責構(gòu)建視頻的整體布局框架,而低噪專家模型則專注于完善視頻的細節(jié)部分。二者緊密配合,在相同參數(shù)規(guī)模下,可節(jié)省約50%的計算資源消耗,有效解決了視頻生成過程中因處理Token過長而導致的計算資源耗費巨大的難題。不僅如此,在復雜運動生成、人物交互、美學表達以及復雜運動等多個維度上,通義萬相Wan2.2也取得了顯著的提升。?
Wan2.2還創(chuàng)新性地推出了“電影美學控制系統(tǒng)”,在光影、色彩、構(gòu)圖以及人物微表情等細節(jié)處理方面,其能力可與專業(yè)電影制作水平相媲美。例如,當用戶輸入“黃昏”“柔光”“邊緣光”“暖色調(diào)”“中心構(gòu)圖”等關(guān)鍵詞時,模型能夠自動生成一幅充滿金色落日余暉的浪漫畫面;而當使用“冷色調(diào)”“硬光”“平衡圖”“低角度”這樣的組合提示詞時,模型則可以生成與科幻片相近的畫面效果。?
通義萬相開源的5B小尺寸統(tǒng)一視頻生成模型也十分引人注目,這一模型具備強大的通用性,單一模型即可同時支持文生視頻和圖生視頻,并且可在消費級顯卡上進行部署。它采用了高壓縮率3DVAE架構(gòu),時間與空間壓縮比高達4×16×16,信息壓縮率提升至64,均達到了開源模型中的最高水平。僅需22G顯存(單張消費級顯卡),該模型就能在數(shù)分鐘內(nèi)生成5秒高清視頻,是目前24幀每秒、720P像素級視頻生成速度最快的基礎(chǔ)模型之一。?
即日起,開發(fā)者可在GitHub、HuggingFace、魔搭社區(qū)便捷地下載模型和代碼,企業(yè)能夠在阿里云百煉調(diào)用模型API,而廣大用戶則可在通義萬相官網(wǎng)和通義App上直接體驗這款強大模型帶來的全新創(chuàng)作感受。自今年2月以來,通義萬相已陸續(xù)開源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型,在開源社區(qū)的下載量已超過500萬,成為開源社區(qū)中最受歡迎的視頻生成模型之一。此次通義萬相Wan2.2的開源,無疑將為視頻生成領(lǐng)域注入新的活力,推動整個行業(yè)邁向新的發(fā)展階段。








