Hunyuan Custom最大的亮點(diǎn),在于它巧妙融合了文本、圖像、音頻、視頻等多模態(tài)輸入生成視頻的能力,堪稱一款具備超強(qiáng)控制力與出色生成質(zhì)量的智能視頻創(chuàng)作利器。騰訊方面介紹,Hunyuan Custom模型具備多種實(shí)用功能,涵蓋單主體視頻生成、多主體視頻生成、單主體視頻配音、視頻局部編輯等。尤為突出的是,其生成的視頻與用戶輸入的參考主體能夠達(dá)到高度一致的效果。?
目前,單主體生成能力已率先開(kāi)源,并在混元官網(wǎng)上線,用戶只需進(jìn)入“模型廣場(chǎng) – 圖生視頻 – 參考生視頻”板塊,即可親身體驗(yàn)這一功能的魅力。在單主體生成模式下,用戶操作極為簡(jiǎn)便,僅需上傳一張包含目標(biāo)人物或物體的圖片,再配上一句文本描述,比如 “他正在遛狗”,Hunyuan Custom便能精準(zhǔn)識(shí)別出圖片中的身份信息,進(jìn)而在截然不同的動(dòng)作、服飾與場(chǎng)景設(shè)定下,生成連貫且自然的視頻內(nèi)容。?
除了單主體生成,Hunyuan Custom在多主體視頻生成方面同樣表現(xiàn)出色。用戶只要分別提供一張人物照片和一張物體照片,例如一包薯片和一名男子的照片,同時(shí)輸入相應(yīng)文字描述,如“一名男子正在游泳池旁邊,手里拿著薯片進(jìn)行展示”,該工具就能讓這兩個(gè)主體按照用戶要求,自然地出現(xiàn)在生成的視頻當(dāng)中。?
值得一提的是,Hunyuan Custom的強(qiáng)大之處遠(yuǎn)不止于圖像與文本的協(xié)同配合,它還具備極為強(qiáng)大的擴(kuò)展能力。在音頻驅(qū)動(dòng)(單主體)模式下,用戶上傳人物圖像后,再配上一段音頻語(yǔ)音,模型便能生成該人物在任意場(chǎng)景中說(shuō)話、唱歌或者進(jìn)行其他音視頻同步表演的精彩效果。這一特性使其在數(shù)字人直播、虛擬客服、教育演示等眾多場(chǎng)景中擁有廣泛的應(yīng)用前景。在視頻驅(qū)動(dòng)模式下,Hunyuan Custom支持將圖片中的人物或物體自然地替換或插入到任意視頻片段內(nèi),實(shí)現(xiàn)創(chuàng)意植入或場(chǎng)景擴(kuò)展,助力用戶輕松完成視頻重構(gòu)與內(nèi)容增強(qiáng)。?
回顧此前的視頻生成模型,大部分主要聚焦于文生視頻和圖生視頻領(lǐng)域。文生視頻往往每次都依據(jù)文本提示詞重新生成,在持續(xù)保持人物和場(chǎng)景一致性方面存在較大難度;而圖像生成視頻模型大多只能實(shí)現(xiàn)“讓圖片動(dòng)起來(lái)”的基本功能,例如上傳一張人物照片,最終生成的視頻通常局限于在照片的原始服飾、姿態(tài)和場(chǎng)景下做出一些簡(jiǎn)單的固定表情或動(dòng)作,服裝、背景和姿態(tài)幾乎難以修改。但在許多實(shí)際創(chuàng)作場(chǎng)景中,創(chuàng)作者常常期望在保持人物一致的前提下,靈活改變?nèi)宋锼幍沫h(huán)境和動(dòng)作,顯然,此前的視頻生成模型無(wú)法滿足這一需求,而多模態(tài)視頻生成模型Hunyuan Custom則憑借引入身份增強(qiáng)機(jī)制和多模態(tài)融合模塊,真正達(dá)成了 “圖像提供身份,文本定義一切” 的創(chuàng)新突破,完美契合了創(chuàng)作者的多樣化需求。?
憑借強(qiáng)大的功能,Hunyuan Custom能夠充分滿足視頻創(chuàng)作者、短視頻博主、電商從業(yè)者、廣告創(chuàng)意人等不同用戶群體以及多元場(chǎng)景的創(chuàng)作需求。在廣告場(chǎng)景中,它能夠便捷地變換商品背景,助力模特快速更換服裝;在電商和客服場(chǎng)景里,可快速、低成本地制作出栩栩如生的數(shù)字人商品介紹視頻,或者打造特定穿著風(fēng)格的數(shù)字人客服視頻;在影視場(chǎng)景中,能快速制作短劇和小故事短視頻,為影視創(chuàng)作提供高效支持。