
阿里云宣布,已將旗下人工智能視頻生成模型免費開放,這是阿里云為開源社區(qū)貢獻力量的又一重要舉措。作為云計算領域的重要企業(yè),阿里云此次開源的是其Wan2.1系列中140B參數(shù)版本和13B參數(shù)版本的四個模型,這四個模型均為視頻基礎模型通義萬相的最新版本。
這四款模型分別為T2V-14B、T2V-1.3B、I2V-14B-720P和I2V-14B-480P,主要功能是基于文本和圖像輸入,生成高質量的圖像與視頻。全球范圍內的學術界、研究人員以及商業(yè)機構,均可在阿里云AI模型社區(qū)Model Scope和協(xié)作AI平臺Hugging Face上進行下載使用。
Wan2.1系列模型在今年年初發(fā)布,它是業(yè)界首個支持中英文文本效果的視頻生成模型。
該模型通過對復雜動作的精準處理、像素質量的提升、物理原理的遵循以及指令執(zhí)行精度的優(yōu)化,能夠生成極為逼真的視覺效果。憑借對指令的精確遵循,Wan2.1在視頻生成模型綜合基準測試套件VBench排行榜上榮登榜首,并且是Hugging Face VBench排行榜前五名中唯一的開源視頻生成模型。
根據(jù)VBench的測試結果顯示,Wan2.1系列整體得分達到86.22%,在動態(tài)度、空間關系、色彩、多物體交互等關鍵維度上均處于領先地位。
訓練視頻基礎模型不僅需要龐大的計算資源,還依賴大量高質量的訓練數(shù)據(jù)。阿里云開放這些模型的訪問權限,有助于降低更多企業(yè)運用人工智能的門檻,讓企業(yè)能夠以經(jīng)濟高效的方式,創(chuàng)建出符合自身需求的高質量視覺內容。
具體來看,T2V-14B模型在創(chuàng)建具有大量運動動態(tài)的高質量視覺效果方面表現(xiàn)更為出色;而 T2V-1.3B模型則在生成質量和計算能力之間實現(xiàn)了良好平衡,對于進行二次開發(fā)和學術研究的廣大開發(fā)人員來說,是較為理想的選擇。舉例來說,使用標準個人筆記本電腦的用戶,借助T2V-1.3B模型,僅需4分鐘就能生成一段分辨率為480p、時長5秒的視頻。








