生數(shù)科技在WAIC2025展示Vidu Q1參考生視頻功能清華與生數(shù)聯(lián)合發(fā)布具身智能模型 Vidar

William — Mon, 28 Jul 2025 16:51:32 +0000

在WAIC 2025（世界人工智能大會(huì)）上，生數(shù)科技最新視頻模型ViduQ1的參考生視頻功能成為它此次重點(diǎn)展示的對(duì)象。這是生數(shù)科技在視頻生成領(lǐng)域?qū)?nèi)容生產(chǎn)流程的一次重新梳理。具體而言，此前的視頻生成包含較多復(fù)雜的前期分鏡制作環(huán)節(jié)，“ViduQ1參考生”通過(guò)對(duì)模型算法層面的調(diào)整，跳過(guò)了這一環(huán)節(jié)，只上傳人物、道具、場(chǎng)景等參考圖，就可以直接將多個(gè)參考元素生成為一段視頻素材，以“參考圖——視頻生成——剪輯——成片”流程取代分鏡生成工作。?

例如，輸入提示詞“諸葛亮與丘吉爾、拿破侖在會(huì)議室面對(duì)面坐著討論”，以及三個(gè)人物的人物參考圖和會(huì)議室場(chǎng)景參考圖，就可以生成一段三人在同一個(gè)會(huì)議室交流對(duì)話(huà)的視頻。?

這項(xiàng)功能解決了主體一致性問(wèn)題，這也是視頻模型大規(guī)模商業(yè)化落地的前提。目前ViduQ1參考生可最多支持七個(gè)主體同時(shí)輸入并始終保持一致，生數(shù)科技方面表示，七個(gè)主體可以把絕大部分場(chǎng)景和元素固定下來(lái)。?

生數(shù)科技CEO駱怡航表示，參考生視頻是對(duì)傳統(tǒng)內(nèi)容生產(chǎn)流程的變革。在他看來(lái)，根據(jù)參考主體一鍵直出視頻，是從線(xiàn)下拍攝視頻到線(xiàn)上AI創(chuàng)作一個(gè)本質(zhì)的創(chuàng)作流程和方式的轉(zhuǎn)變。其次，這一改動(dòng)可以構(gòu)建更通用的創(chuàng)作方式，可更好落地廣告、動(dòng)漫、影視、文旅、教育等不同商業(yè)化場(chǎng)景。?

多模態(tài)模型是當(dāng)前所有還在堅(jiān)持基礎(chǔ)模型訓(xùn)練的廠商的重點(diǎn)投入方向，而理解與生成一體化被認(rèn)為是行業(yè)共同追求的目標(biāo)。不過(guò)，在自回歸架構(gòu)、擴(kuò)散架構(gòu)等底層算法問(wèn)題上，行業(yè)還沒(méi)有得到一個(gè)有效答案。?

駱怡航稱(chēng)，從表面上來(lái)看，這是一個(gè)技術(shù)路線(xiàn)選擇問(wèn)題，但對(duì)于需要追求應(yīng)用落地和商業(yè)化進(jìn)程的創(chuàng)業(yè)公司而言，這個(gè)問(wèn)題的最終解決要綜合研判。生數(shù)科技目前采用U-ViT架構(gòu)，也是一種主流的基于擴(kuò)散（Diffusion）和Transformer相結(jié)合的架構(gòu)，不過(guò)團(tuán)隊(duì)會(huì)對(duì)個(gè)別算法模塊等分支部分進(jìn)行優(yōu)化。Vidu模型本身也內(nèi)置多模態(tài)理解能力，落地于視頻生成。團(tuán)隊(duì)暫時(shí)沒(méi)有將理解與生成一體化放在優(yōu)先位置，是因?yàn)樾袠I(yè)客戶(hù)更關(guān)心內(nèi)容效果而非技術(shù)路線(xiàn)，因此模型的創(chuàng)新迭代還是以產(chǎn)業(yè)落地為引導(dǎo)。?

生數(shù)科技正在將Vidu的多模能力接入具身智能領(lǐng)域。7月25日，清華大學(xué)與生數(shù)科技聯(lián)合發(fā)布具身智能模型Vidar，通過(guò)“視頻大模型+具身智能”技術(shù)路徑，實(shí)現(xiàn)低成本、少樣本泛化，所需數(shù)據(jù)量約為RDT的八十分之一，π0.5的一千兩百分之一。?

駱怡航解釋稱(chēng)，在視頻模型和具身智能領(lǐng)域，無(wú)論是數(shù)字信息還是物理信息，本質(zhì)上都是時(shí)空信息，并且都采用信息輸入、決策輸出的交互邏輯，因此視頻模型對(duì)于物理世界規(guī)律的理解與具身智能是通用的。團(tuán)隊(duì)可以基于Vidu視頻大模型基座，通過(guò)少量機(jī)器人線(xiàn)下實(shí)操視頻的訓(xùn)練與微調(diào)，將生成的虛擬視頻轉(zhuǎn)化為對(duì)應(yīng)的機(jī)械臂動(dòng)作。相較于強(qiáng)調(diào)端到端的VLA（Vision-Language-Action）路線(xiàn)，Vidar想要解決前者數(shù)據(jù)稀缺和難以大規(guī)模泛化的瓶頸問(wèn)題。?

據(jù)悉，Vidar是全球首個(gè)基于通用視頻大模型實(shí)現(xiàn)視頻理解能力向物理決策系統(tǒng)性遷移的多視角具身基座模型。該模型創(chuàng)新性地構(gòu)建了支持機(jī)器人雙臂協(xié)同任務(wù)的多視角視頻預(yù)測(cè)框架，在保持SOTA性能的同時(shí)，展現(xiàn)出顯著的少樣本學(xué)習(xí)優(yōu)勢(shì)。

為讓模型更“見(jiàn)多識(shí)廣”，實(shí)現(xiàn)多類(lèi)型機(jī)器人操作的深度融合，靈活適應(yīng)各種物理環(huán)境，清華大學(xué)和生數(shù)團(tuán)隊(duì)創(chuàng)新性地提出了基于統(tǒng)一觀測(cè)空間的具身預(yù)訓(xùn)練方法。這套方法巧妙運(yùn)用統(tǒng)一觀測(cè)空間、海量具身數(shù)據(jù)預(yù)訓(xùn)練和少量目標(biāo)機(jī)器人微調(diào)，實(shí)現(xiàn)了視頻意義上的精準(zhǔn)控制。在視頻生成基準(zhǔn)VBench上的測(cè)試表明，經(jīng)過(guò)具身數(shù)據(jù)預(yù)訓(xùn)練，Vidu模型在主體一致性、背景一致性和圖像質(zhì)量這三個(gè)維度上都有了顯著的提升，為少樣本泛化提供了有力支撐。在16種常見(jiàn)的機(jī)器人操作任務(wù)上，Vidar取得了遠(yuǎn)超基線(xiàn)方法的成功率；再細(xì)分到類(lèi)別，Vidar在沒(méi)見(jiàn)過(guò)的任務(wù)和背景上的泛化能力尤為突出。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

最近免费中文字幕中文高清6,欧洲熟妇性色黄在线观看免费

生數(shù)科技在WAIC2025展示Vidu Q1參考生視頻功能 清華與生數(shù)聯(lián)合發(fā)布具身智能模型 Vidar

生數(shù)科技在WAIC2025展示Vidu Q1參考生視頻功能清華與生數(shù)聯(lián)合發(fā)布具身智能模型 Vidar