
3D視覺領(lǐng)域正迎來一場意義深遠的變革。牛津大學 VGG(Visual Geometry Group)與Meta AI團隊強強聯(lián)合,發(fā)布了最新研究成果——VGGT(Visual Geometry Grounded Transformer)。這是一種基于純前饋 Transformer 架構(gòu)的通用3D視覺模型,其強大的功能令人矚目,能夠從單張、多張乃至上百張圖像中,直接推理出相機內(nèi)參、外參、深度圖、點云及3D點軌跡等核心幾何信息。
尤為突出的是,在無需任何后處理優(yōu)化的情況下,該模型在多個3D任務(wù)中的性能顯著超越了傳統(tǒng)優(yōu)化方法以及現(xiàn)有的SOTA模型,推理速度更是快至秒級。這一突破性的研究成果,徹底打破了過去3D任務(wù)長期依賴繁瑣幾何迭代優(yōu)化的傳統(tǒng)范式,生動展現(xiàn)了“越簡單,越有效”理念所蘊含的強大潛力。?
長期以來,傳統(tǒng)3D重建技術(shù)對束調(diào)整(Bundle Adjustment, BA)等幾何優(yōu)化方法存在高度依賴。這些方法需要反復(fù)進行迭代計算,不僅過程復(fù)雜,而且計算成本極為高昂。盡管近年來機器學習技術(shù)被引入以輔助優(yōu)化,但始終難以擺脫復(fù)雜后處理帶來的重重桎梏。與之形成鮮明對比的是,VGGT采用了開創(chuàng)性的純前饋設(shè)計。通過將大規(guī)模3D標注數(shù)據(jù)與 Transformer 架構(gòu)深度融合,該模型僅需一次前向傳播,便能一氣呵成地完成所有幾何推理任務(wù)。實驗數(shù)據(jù)有力地證明,即便輸入數(shù)百張圖像,VGGT仍能夠在短短數(shù)秒內(nèi)輸出高質(zhì)量的結(jié)果,無論是在精度還是速度方面,均大幅超越傳統(tǒng)優(yōu)化方法。?
研究團隊深入剖析后指出,VGGT之所以能夠取得如此卓越的成績,并非源于復(fù)雜的結(jié)構(gòu)設(shè)計或特定領(lǐng)域的先驗知識,而是得益于Transformer架構(gòu)與生俱來的通用性,以及大規(guī)模3D 數(shù)據(jù)訓練所產(chǎn)生的協(xié)同效應(yīng)。
在具體運行過程中,模型首先將輸入圖像轉(zhuǎn)化為Tokens,隨后,這些Tokens與隨機初始化的相機Tokens一同被輸入到交替注意力模塊(Alternating-Attention)中。在這里,通過全局與幀級自注意力層的交替堆疊,模型能夠逐步、有效地融合多視圖幾何信息。最終,相機參數(shù)經(jīng)專用頭部解碼得出,而圖像Tokens則通過DPT頭部生成密集預(yù)測結(jié)果,例如深度圖與點圖等。值得特別強調(diào)的是,VGGT僅使用了自注意力機制(self attention),并未采用跨注意力(cross attention)。








