字節(jié)跳動(dòng)發(fā)布AI視頻模型Waver 1.0,開啟視頻創(chuàng)作新時(shí)代

?? 由 文心大模型 生成的文章摘要

字節(jié)跳動(dòng)正式發(fā)布了其全新的AI視頻模型Waver 1.0,這一突破性的技術(shù)成果為視頻生成領(lǐng)域帶來(lái)了前所未有的變革。Waver 1.0不僅支持多種藝術(shù)風(fēng)格的視頻生成,還在視頻質(zhì)量、時(shí)長(zhǎng)和分辨率等方面實(shí)現(xiàn)了重大提升,為創(chuàng)作者們提供了更為強(qiáng)大的創(chuàng)作工具。?

Waver 1.0是一款集成了文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I)生成功能的一體化模型。這意味著創(chuàng)作者無(wú)需在不同模型之間切換,就能根據(jù)自己的創(chuàng)意需求,輕松將文字描述或靜態(tài)圖片轉(zhuǎn)化為生動(dòng)的視頻內(nèi)容。無(wú)論是創(chuàng)作故事短片、廣告視頻,還是制作社交媒體上的吸睛短視頻,Waver 1.0都能滿足多樣化的創(chuàng)作需求。?

該模型能夠直接生成5-10秒、原生分辨率為720p的視頻,并可通過(guò)后期處理進(jìn)一步超分至1080p,輸出的視頻畫質(zhì)清晰、細(xì)節(jié)豐富,達(dá)到了專業(yè)級(jí)別的視覺效果。此外,Waver 1.0在復(fù)雜運(yùn)動(dòng)捕捉方面表現(xiàn)出色,能夠精準(zhǔn)呈現(xiàn)物體的大幅度運(yùn)動(dòng)和細(xì)膩動(dòng)作,使生成的視頻更加流暢自然,極大地提升了視頻的真實(shí)感和觀賞性。?

在藝術(shù)風(fēng)格方面,Waver 1.0支持包括極致寫實(shí)、卡通動(dòng)畫、黏土風(fēng)格、毛絨質(zhì)感以及賽博朋克等在內(nèi)的多種風(fēng)格,創(chuàng)作者可以根據(jù)視頻的主題和情感基調(diào),自由選擇合適的風(fēng)格,為作品賦予獨(dú)特的視覺魅力。這種豐富的風(fēng)格選擇不僅拓寬了創(chuàng)作者的創(chuàng)意空間,也為觀眾帶來(lái)了更為多元的視覺體驗(yàn)。?

對(duì)于需要講述復(fù)雜故事的創(chuàng)作者來(lái)說(shuō),Waver 1.0的多鏡頭敘事功能無(wú)疑是一大福音。它能夠自動(dòng)生成多個(gè)連貫的鏡頭,并在鏡頭切換和時(shí)空轉(zhuǎn)換過(guò)程中,確保核心主體、視覺風(fēng)格和整體氛圍的高度一致,讓視頻的敘事更加流暢、自然,有效避免了因鏡頭銜接不當(dāng)而導(dǎo)致的“跳戲”問(wèn)題。?

Waver 1.0的強(qiáng)大性能得益于其背后一系列的技術(shù)創(chuàng)新。例如,混合流DiT架構(gòu)通過(guò)在淺層對(duì)視頻和圖像模態(tài)信息進(jìn)行分離處理,在深層實(shí)現(xiàn)融合,顯著提升了模態(tài)對(duì)齊能力,加速了訓(xùn)練收斂速度;雙文本編碼器系統(tǒng)則能夠更精準(zhǔn)地理解創(chuàng)作者輸入的文本指令,從而生成更貼合需求的視頻內(nèi)容;級(jí)聯(lián)精煉器能夠?qū)⒃?20p的視頻高效提升至1080p,同時(shí)修復(fù)視頻中的瑕疵,提升視頻的整體質(zhì)量。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」