
Hunyuan Custom最大的亮點,在于它巧妙融合了文本、圖像、音頻、視頻等多模態(tài)輸入生成視頻的能力,堪稱一款具備超強控制力與出色生成質量的智能視頻創(chuàng)作利器。騰訊方面介紹,Hunyuan Custom模型具備多種實用功能,涵蓋單主體視頻生成、多主體視頻生成、單主體視頻配音、視頻局部編輯等。尤為突出的是,其生成的視頻與用戶輸入的參考主體能夠達到高度一致的效果。?
目前,單主體生成能力已率先開源,并在混元官網(wǎng)上線,用戶只需進入“模型廣場 – 圖生視頻 – 參考生視頻”板塊,即可親身體驗這一功能的魅力。在單主體生成模式下,用戶操作極為簡便,僅需上傳一張包含目標人物或物體的圖片,再配上一句文本描述,比如 “他正在遛狗”,Hunyuan Custom便能精準識別出圖片中的身份信息,進而在截然不同的動作、服飾與場景設定下,生成連貫且自然的視頻內容。?
除了單主體生成,Hunyuan Custom在多主體視頻生成方面同樣表現(xiàn)出色。用戶只要分別提供一張人物照片和一張物體照片,例如一包薯片和一名男子的照片,同時輸入相應文字描述,如“一名男子正在游泳池旁邊,手里拿著薯片進行展示”,該工具就能讓這兩個主體按照用戶要求,自然地出現(xiàn)在生成的視頻當中。?
值得一提的是,Hunyuan Custom的強大之處遠不止于圖像與文本的協(xié)同配合,它還具備極為強大的擴展能力。在音頻驅動(單主體)模式下,用戶上傳人物圖像后,再配上一段音頻語音,模型便能生成該人物在任意場景中說話、唱歌或者進行其他音視頻同步表演的精彩效果。這一特性使其在數(shù)字人直播、虛擬客服、教育演示等眾多場景中擁有廣泛的應用前景。在視頻驅動模式下,Hunyuan Custom支持將圖片中的人物或物體自然地替換或插入到任意視頻片段內,實現(xiàn)創(chuàng)意植入或場景擴展,助力用戶輕松完成視頻重構與內容增強。?
回顧此前的視頻生成模型,大部分主要聚焦于文生視頻和圖生視頻領域。文生視頻往往每次都依據(jù)文本提示詞重新生成,在持續(xù)保持人物和場景一致性方面存在較大難度;而圖像生成視頻模型大多只能實現(xiàn)“讓圖片動起來”的基本功能,例如上傳一張人物照片,最終生成的視頻通常局限于在照片的原始服飾、姿態(tài)和場景下做出一些簡單的固定表情或動作,服裝、背景和姿態(tài)幾乎難以修改。但在許多實際創(chuàng)作場景中,創(chuàng)作者常常期望在保持人物一致的前提下,靈活改變人物所處的環(huán)境和動作,顯然,此前的視頻生成模型無法滿足這一需求,而多模態(tài)視頻生成模型Hunyuan Custom則憑借引入身份增強機制和多模態(tài)融合模塊,真正達成了 “圖像提供身份,文本定義一切” 的創(chuàng)新突破,完美契合了創(chuàng)作者的多樣化需求。?
憑借強大的功能,Hunyuan Custom能夠充分滿足視頻創(chuàng)作者、短視頻博主、電商從業(yè)者、廣告創(chuàng)意人等不同用戶群體以及多元場景的創(chuàng)作需求。在廣告場景中,它能夠便捷地變換商品背景,助力模特快速更換服裝;在電商和客服場景里,可快速、低成本地制作出栩栩如生的數(shù)字人商品介紹視頻,或者打造特定穿著風格的數(shù)字人客服視頻;在影視場景中,能快速制作短劇和小故事短視頻,為影視創(chuàng)作提供高效支持。








