生數(shù)科技發(fā)布高可控視頻大模型Vidu Q1

?? 由 文心大模型 生成的文章摘要

在中關(guān)村論壇人工智能日的主題演講上,清華大學(xué)人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍正式發(fā)布了多模態(tài)視頻生成模型Vidu Q1。作為業(yè)內(nèi)首個高可控 AI 視頻大模型,Vidu Q1計劃于4月在全球上線,致力于解決當(dāng)前AI視頻生成過程中 “隨機性” 這一長期存在的痛點問題。?

一直以來,AI視頻生成的“隨機性極大地限制了其在實際應(yīng)用中的效果和價值。Vidu Q1通過引入多元素控制,將提升“可控性”作為核心目標(biāo),使AI視頻生成技術(shù)迭代契合當(dāng)下視頻制作精品化、精細(xì)化的發(fā)展趨勢。該模型在多主體細(xì)節(jié)可控(特別是動作可控、布局可控)、音效同步可控、畫質(zhì)增強等方面取得了突破性進展。?

在多主體細(xì)節(jié)可控方面,Vidu Q1在語義指令的基礎(chǔ)上,融入?yún)⒖紙D的視覺指令,支持對場景中多主體的位置、大小、運動軌跡等屬性進行更精準(zhǔn)的控制,能夠?qū)λ袆幼餍袨?,如出場、退場、坐立姿態(tài)、行動路線等進行精確調(diào)整。這意味著用戶在創(chuàng)作視頻時,可以更加隨心所欲地安排視頻中各主體的行為和位置,大大提升了視頻內(nèi)容的創(chuàng)作自由度和可控性。?

音效同步可控功能是Vidu Q1的又一亮點。它能夠根據(jù)視頻環(huán)境與畫面轉(zhuǎn)場,輸出生成相應(yīng)的音效,并且可以精準(zhǔn)控制每段音效的長短區(qū)間,精確設(shè)置每段音頻出現(xiàn)的時間點,比如0 – 2 秒的風(fēng)聲、3 – 5秒的雨聲等。這一功能不僅節(jié)省了視頻制作過程中添加音效的時間成本,還顯著增強了視頻的沉浸感與感染力,為觀眾帶來更加身臨其境的視聽體驗。

此外,Vidu Q1 在畫質(zhì)增強方面也有出色表現(xiàn),能夠為用戶提供更加清晰、細(xì)膩、逼真的視覺效果。無論是人物的細(xì)節(jié)紋理,還是場景的光影變化,都能呈現(xiàn)出更高質(zhì)量的畫質(zhì),滿足用戶對于視頻畫質(zhì)日益增長的要求。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」