生數(shù)科技正式宣布旗下視頻大模型Vidu的Q1參考生圖功能全面開放。這一創(chuàng)新性的功能不僅支持多達7張參考圖輸入,更在保持主體一致性方面實現(xiàn)了重大突破,同時還支持多人同場景或多人多場景的復(fù)雜創(chuàng)作需求,為內(nèi)容創(chuàng)作者、電商從業(yè)者以及廣告行業(yè)帶來了全新的可能性。?
在以往的視頻生成模型中,參考圖輸入數(shù)量往往有限,這極大限制了創(chuàng)作者對細節(jié)和整體場景的把控。Vidu Q1參考生圖功能一舉打破這一局限,允許同時輸入7張參考圖,創(chuàng)作者可以更加精準地控制生成內(nèi)容的各個方面,從人物的表情、姿態(tài)到場景的布置、道具的擺放,都能通過參考圖進行細致引導(dǎo),大大提升了創(chuàng)作的可控性和自由度。?
在多人、多場景以及多次生成的復(fù)雜情況下,保持人物或主體的面貌與特征一致一直是行業(yè)難題。Vidu Q1參考生圖功能通過先進的算法優(yōu)化,成功攻克這一挑戰(zhàn)。無論是在劇情片的連續(xù)場景切換中,還是電商廣告中同一模特展示不同商品的畫面里,主體的關(guān)鍵特征都能始終保持穩(wěn)定,不會出現(xiàn)“變臉”或“變形”的情況,為用戶帶來了前所未有的一致性體驗。?
該功能對多人同場景或多人多場景的支持,進一步拓展了視頻創(chuàng)作的邊界。內(nèi)容創(chuàng)作者可以輕松構(gòu)建復(fù)雜的劇情場景,讓不同角色在同一畫面中自然互動;電商從業(yè)者能夠制作出多角色、多商品展示的宣傳視頻,增強產(chǎn)品的吸引力和展示效果;廣告行業(yè)則可以利用這一功能打造更具創(chuàng)意和視覺沖擊力的廣告作品,滿足多樣化的市場需求。?
Vidu Q1參考生圖功能的推出,在電商、廣告、影視、動漫等多個領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。在電商領(lǐng)域,商家可以快速生成高質(zhì)量的商品展示視頻,提升產(chǎn)品宣傳效果,促進銷售轉(zhuǎn)化;廣告行業(yè)能夠借助該功能實現(xiàn)更高效的創(chuàng)意輸出,以更低的成本制作出引人注目的廣告內(nèi)容;影視和動漫創(chuàng)作者則可以利用其強大的場景構(gòu)建能力,加速前期創(chuàng)意驗證和概念設(shè)計,為作品創(chuàng)作注入新的活力。
在中關(guān)村論壇人工智能日的主題演講上,清華大學(xué)人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍正式發(fā)布了多模態(tài)視頻生成模型Vidu Q1。作為業(yè)內(nèi)首個高可控 AI 視頻大模型,Vidu Q1計劃于4月在全球上線,致力于解決當(dāng)前AI視頻生成過程中 “隨機性” 這一長期存在的痛點問題。?
一直以來,AI視頻生成的“隨機性極大地限制了其在實際應(yīng)用中的效果和價值。Vidu Q1通過引入多元素控制,將提升“可控性”作為核心目標,使AI視頻生成技術(shù)迭代契合當(dāng)下視頻制作精品化、精細化的發(fā)展趨勢。該模型在多主體細節(jié)可控(特別是動作可控、布局可控)、音效同步可控、畫質(zhì)增強等方面取得了突破性進展。?
在多主體細節(jié)可控方面,Vidu Q1在語義指令的基礎(chǔ)上,融入?yún)⒖紙D的視覺指令,支持對場景中多主體的位置、大小、運動軌跡等屬性進行更精準的控制,能夠?qū)λ袆幼餍袨?,如出場、退場、坐立姿態(tài)、行動路線等進行精確調(diào)整。這意味著用戶在創(chuàng)作視頻時,可以更加隨心所欲地安排視頻中各主體的行為和位置,大大提升了視頻內(nèi)容的創(chuàng)作自由度和可控性。?
音效同步可控功能是Vidu Q1的又一亮點。它能夠根據(jù)視頻環(huán)境與畫面轉(zhuǎn)場,輸出生成相應(yīng)的音效,并且可以精準控制每段音效的長短區(qū)間,精確設(shè)置每段音頻出現(xiàn)的時間點,比如0 – 2 秒的風(fēng)聲、3 – 5秒的雨聲等。這一功能不僅節(jié)省了視頻制作過程中添加音效的時間成本,還顯著增強了視頻的沉浸感與感染力,為觀眾帶來更加身臨其境的視聽體驗。
此外,Vidu Q1 在畫質(zhì)增強方面也有出色表現(xiàn),能夠為用戶提供更加清晰、細膩、逼真的視覺效果。無論是人物的細節(jié)紋理,還是場景的光影變化,都能呈現(xiàn)出更高質(zhì)量的畫質(zhì),滿足用戶對于視頻畫質(zhì)日益增長的要求。?