最近免费中文字幕中文高清6,欧洲熟妇性色黄在线观看免费 http://pinmang.cn 93913成立于2015年9月13日,是目前國(guó)內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過(guò)93913為用戶(hù)提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會(huì)、開(kāi)發(fā)者大賽、連接商業(yè)項(xiàng)目以及FA投融資顧問(wèn)等服務(wù)。 Mon, 28 Jul 2025 16:51:32 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 生數(shù)科技在WAIC2025展示Vidu Q1參考生視頻功能 清華與生數(shù)聯(lián)合發(fā)布具身智能模型 Vidar http://pinmang.cn/112976.html http://pinmang.cn/112976.html#respond Mon, 28 Jul 2025 16:51:32 +0000 http://pinmang.cn/?p=112976

在WAIC 2025(世界人工智能大會(huì))上,生數(shù)科技最新視頻模型ViduQ1的參考生視頻功能成為它此次重點(diǎn)展示的對(duì)象。這是生數(shù)科技在視頻生成領(lǐng)域?qū)?nèi)容生產(chǎn)流程的一次重新梳理。具體而言,此前的視頻生成包含較多復(fù)雜的前期分鏡制作環(huán)節(jié),“ViduQ1參考生”通過(guò)對(duì)模型算法層面的調(diào)整,跳過(guò)了這一環(huán)節(jié),只上傳人物、道具、場(chǎng)景等參考圖,就可以直接將多個(gè)參考元素生成為一段視頻素材,以“參考圖——視頻生成——剪輯——成片”流程取代分鏡生成工作。?

例如,輸入提示詞“諸葛亮與丘吉爾、拿破侖在會(huì)議室面對(duì)面坐著討論”,以及三個(gè)人物的人物參考圖和會(huì)議室場(chǎng)景參考圖,就可以生成一段三人在同一個(gè)會(huì)議室交流對(duì)話(huà)的視頻。?

這項(xiàng)功能解決了主體一致性問(wèn)題,這也是視頻模型大規(guī)模商業(yè)化落地的前提。目前ViduQ1參考生可最多支持七個(gè)主體同時(shí)輸入并始終保持一致,生數(shù)科技方面表示,七個(gè)主體可以把絕大部分場(chǎng)景和元素固定下來(lái)。?

生數(shù)科技CEO駱怡航表示,參考生視頻是對(duì)傳統(tǒng)內(nèi)容生產(chǎn)流程的變革。在他看來(lái),根據(jù)參考主體一鍵直出視頻,是從線(xiàn)下拍攝視頻到線(xiàn)上AI創(chuàng)作一個(gè)本質(zhì)的創(chuàng)作流程和方式的轉(zhuǎn)變。其次,這一改動(dòng)可以構(gòu)建更通用的創(chuàng)作方式,可更好落地廣告、動(dòng)漫、影視、文旅、教育等不同商業(yè)化場(chǎng)景。?

多模態(tài)模型是當(dāng)前所有還在堅(jiān)持基礎(chǔ)模型訓(xùn)練的廠商的重點(diǎn)投入方向,而理解與生成一體化被認(rèn)為是行業(yè)共同追求的目標(biāo)。不過(guò),在自回歸架構(gòu)、擴(kuò)散架構(gòu)等底層算法問(wèn)題上,行業(yè)還沒(méi)有得到一個(gè)有效答案。?

駱怡航稱(chēng),從表面上來(lái)看,這是一個(gè)技術(shù)路線(xiàn)選擇問(wèn)題,但對(duì)于需要追求應(yīng)用落地和商業(yè)化進(jìn)程的創(chuàng)業(yè)公司而言,這個(gè)問(wèn)題的最終解決要綜合研判。生數(shù)科技目前采用U-ViT架構(gòu),也是一種主流的基于擴(kuò)散(Diffusion)和Transformer相結(jié)合的架構(gòu),不過(guò)團(tuán)隊(duì)會(huì)對(duì)個(gè)別算法模塊等分支部分進(jìn)行優(yōu)化。Vidu模型本身也內(nèi)置多模態(tài)理解能力,落地于視頻生成。團(tuán)隊(duì)暫時(shí)沒(méi)有將理解與生成一體化放在優(yōu)先位置,是因?yàn)樾袠I(yè)客戶(hù)更關(guān)心內(nèi)容效果而非技術(shù)路線(xiàn),因此模型的創(chuàng)新迭代還是以產(chǎn)業(yè)落地為引導(dǎo)。?

生數(shù)科技正在將Vidu的多模能力接入具身智能領(lǐng)域。7月25日,清華大學(xué)與生數(shù)科技聯(lián)合發(fā)布具身智能模型Vidar,通過(guò)“視頻大模型+具身智能”技術(shù)路徑,實(shí)現(xiàn)低成本、少樣本泛化,所需數(shù)據(jù)量約為RDT的八十分之一,π0.5的一千兩百分之一。?

駱怡航解釋稱(chēng),在視頻模型和具身智能領(lǐng)域,無(wú)論是數(shù)字信息還是物理信息,本質(zhì)上都是時(shí)空信息,并且都采用信息輸入、決策輸出的交互邏輯,因此視頻模型對(duì)于物理世界規(guī)律的理解與具身智能是通用的。團(tuán)隊(duì)可以基于Vidu視頻大模型基座,通過(guò)少量機(jī)器人線(xiàn)下實(shí)操視頻的訓(xùn)練與微調(diào),將生成的虛擬視頻轉(zhuǎn)化為對(duì)應(yīng)的機(jī)械臂動(dòng)作。相較于強(qiáng)調(diào)端到端的VLA(Vision-Language-Action)路線(xiàn),Vidar想要解決前者數(shù)據(jù)稀缺和難以大規(guī)模泛化的瓶頸問(wèn)題。?

據(jù)悉,Vidar是全球首個(gè)基于通用視頻大模型實(shí)現(xiàn)視頻理解能力向物理決策系統(tǒng)性遷移的多視角具身基座模型。該模型創(chuàng)新性地構(gòu)建了支持機(jī)器人雙臂協(xié)同任務(wù)的多視角視頻預(yù)測(cè)框架,在保持SOTA性能的同時(shí),展現(xiàn)出顯著的少樣本學(xué)習(xí)優(yōu)勢(shì)。

為讓模型更“見(jiàn)多識(shí)廣”,實(shí)現(xiàn)多類(lèi)型機(jī)器人操作的深度融合,靈活適應(yīng)各種物理環(huán)境,清華大學(xué)和生數(shù)團(tuán)隊(duì)創(chuàng)新性地提出了基于統(tǒng)一觀測(cè)空間的具身預(yù)訓(xùn)練方法。這套方法巧妙運(yùn)用統(tǒng)一觀測(cè)空間、海量具身數(shù)據(jù)預(yù)訓(xùn)練和少量目標(biāo)機(jī)器人微調(diào),實(shí)現(xiàn)了視頻意義上的精準(zhǔn)控制。在視頻生成基準(zhǔn)VBench上的測(cè)試表明,經(jīng)過(guò)具身數(shù)據(jù)預(yù)訓(xùn)練,Vidu模型在主體一致性、背景一致性和圖像質(zhì)量這三個(gè)維度上都有了顯著的提升,為少樣本泛化提供了有力支撐。在16種常見(jiàn)的機(jī)器人操作任務(wù)上,Vidar取得了遠(yuǎn)超基線(xiàn)方法的成功率;再細(xì)分到類(lèi)別,Vidar在沒(méi)見(jiàn)過(guò)的任務(wù)和背景上的泛化能力尤為突出。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」
]]>
http://pinmang.cn/112976.html/feed 0