
在WAIC 2025(世界人工智能大會)上,生數(shù)科技最新視頻模型ViduQ1的參考生視頻功能成為它此次重點展示的對象。這是生數(shù)科技在視頻生成領(lǐng)域?qū)?nèi)容生產(chǎn)流程的一次重新梳理。具體而言,此前的視頻生成包含較多復(fù)雜的前期分鏡制作環(huán)節(jié),“ViduQ1參考生”通過對模型算法層面的調(diào)整,跳過了這一環(huán)節(jié),只上傳人物、道具、場景等參考圖,就可以直接將多個參考元素生成為一段視頻素材,以“參考圖——視頻生成——剪輯——成片”流程取代分鏡生成工作。?
例如,輸入提示詞“諸葛亮與丘吉爾、拿破侖在會議室面對面坐著討論”,以及三個人物的人物參考圖和會議室場景參考圖,就可以生成一段三人在同一個會議室交流對話的視頻。?
這項功能解決了主體一致性問題,這也是視頻模型大規(guī)模商業(yè)化落地的前提。目前ViduQ1參考生可最多支持七個主體同時輸入并始終保持一致,生數(shù)科技方面表示,七個主體可以把絕大部分場景和元素固定下來。?
生數(shù)科技CEO駱怡航表示,參考生視頻是對傳統(tǒng)內(nèi)容生產(chǎn)流程的變革。在他看來,根據(jù)參考主體一鍵直出視頻,是從線下拍攝視頻到線上AI創(chuàng)作一個本質(zhì)的創(chuàng)作流程和方式的轉(zhuǎn)變。其次,這一改動可以構(gòu)建更通用的創(chuàng)作方式,可更好落地廣告、動漫、影視、文旅、教育等不同商業(yè)化場景。?
多模態(tài)模型是當(dāng)前所有還在堅持基礎(chǔ)模型訓(xùn)練的廠商的重點投入方向,而理解與生成一體化被認(rèn)為是行業(yè)共同追求的目標(biāo)。不過,在自回歸架構(gòu)、擴(kuò)散架構(gòu)等底層算法問題上,行業(yè)還沒有得到一個有效答案。?
駱怡航稱,從表面上來看,這是一個技術(shù)路線選擇問題,但對于需要追求應(yīng)用落地和商業(yè)化進(jìn)程的創(chuàng)業(yè)公司而言,這個問題的最終解決要綜合研判。生數(shù)科技目前采用U-ViT架構(gòu),也是一種主流的基于擴(kuò)散(Diffusion)和Transformer相結(jié)合的架構(gòu),不過團(tuán)隊會對個別算法模塊等分支部分進(jìn)行優(yōu)化。Vidu模型本身也內(nèi)置多模態(tài)理解能力,落地于視頻生成。團(tuán)隊暫時沒有將理解與生成一體化放在優(yōu)先位置,是因為行業(yè)客戶更關(guān)心內(nèi)容效果而非技術(shù)路線,因此模型的創(chuàng)新迭代還是以產(chǎn)業(yè)落地為引導(dǎo)。?
生數(shù)科技正在將Vidu的多模能力接入具身智能領(lǐng)域。7月25日,清華大學(xué)與生數(shù)科技聯(lián)合發(fā)布具身智能模型Vidar,通過“視頻大模型+具身智能”技術(shù)路徑,實現(xiàn)低成本、少樣本泛化,所需數(shù)據(jù)量約為RDT的八十分之一,π0.5的一千兩百分之一。?
駱怡航解釋稱,在視頻模型和具身智能領(lǐng)域,無論是數(shù)字信息還是物理信息,本質(zhì)上都是時空信息,并且都采用信息輸入、決策輸出的交互邏輯,因此視頻模型對于物理世界規(guī)律的理解與具身智能是通用的。團(tuán)隊可以基于Vidu視頻大模型基座,通過少量機(jī)器人線下實操視頻的訓(xùn)練與微調(diào),將生成的虛擬視頻轉(zhuǎn)化為對應(yīng)的機(jī)械臂動作。相較于強(qiáng)調(diào)端到端的VLA(Vision-Language-Action)路線,Vidar想要解決前者數(shù)據(jù)稀缺和難以大規(guī)模泛化的瓶頸問題。?
據(jù)悉,Vidar是全球首個基于通用視頻大模型實現(xiàn)視頻理解能力向物理決策系統(tǒng)性遷移的多視角具身基座模型。該模型創(chuàng)新性地構(gòu)建了支持機(jī)器人雙臂協(xié)同任務(wù)的多視角視頻預(yù)測框架,在保持SOTA性能的同時,展現(xiàn)出顯著的少樣本學(xué)習(xí)優(yōu)勢。
為讓模型更“見多識廣”,實現(xiàn)多類型機(jī)器人操作的深度融合,靈活適應(yīng)各種物理環(huán)境,清華大學(xué)和生數(shù)團(tuán)隊創(chuàng)新性地提出了基于統(tǒng)一觀測空間的具身預(yù)訓(xùn)練方法。這套方法巧妙運用統(tǒng)一觀測空間、海量具身數(shù)據(jù)預(yù)訓(xùn)練和少量目標(biāo)機(jī)器人微調(diào),實現(xiàn)了視頻意義上的精準(zhǔn)控制。在視頻生成基準(zhǔn)VBench上的測試表明,經(jīng)過具身數(shù)據(jù)預(yù)訓(xùn)練,Vidu模型在主體一致性、背景一致性和圖像質(zhì)量這三個維度上都有了顯著的提升,為少樣本泛化提供了有力支撐。在16種常見的機(jī)器人操作任務(wù)上,Vidar取得了遠(yuǎn)超基線方法的成功率;再細(xì)分到類別,Vidar在沒見過的任務(wù)和背景上的泛化能力尤為突出。








