
Meta研究人員提出了MCC,這是一種可以基于單個圖像重建3D模型的方法,從中,Meta看到了VR/AR和機器人技術(shù)的應(yīng)用前景。
目前,依賴于Transformers等架構(gòu)和大量訓練數(shù)據(jù)的AI模型已經(jīng)產(chǎn)生了令人印象深刻的語言模型,例如OpenAI GPT-3或最近的ChatGPT。
自然語言處理的突破帶來了一個關(guān)鍵的見解:基礎(chǔ)模型擴展將成為可能,而先決條件是領(lǐng)域獨立的架構(gòu),例如可以處理不同模式的轉(zhuǎn)換器,以及使用大量未標記數(shù)據(jù)進行自我監(jiān)督訓練。
這些架構(gòu)與大規(guī)模、類別無關(guān)的學習相結(jié)合,已應(yīng)用于語言處理以外的領(lǐng)域,例如圖像合成或圖像識別。
Meta MCC為3D重建帶來規(guī)?;幚?/strong>
Meta FAIR Lab演示了多視圖壓縮編碼 (MCC),這是一種基于變換器的編碼器-解碼器模型,可以基于單個RGB-D圖像重建3D對象。
研究人員認為MCC是邁向用于機器人或AR/VR應(yīng)用的3D重建通用AI模型的重要一步,基于這些模型,為更好理解3D空間和對象或視覺重建開辟了無數(shù)可能性。
由于帶有深度傳感器的iPhone和從RGB圖像中獲取深度信息的簡單AI網(wǎng)絡(luò)的普及,此類具有深度信息的圖像現(xiàn)在很容易獲得。Met表示,該方案易于擴展,并且將來可以輕松生成大型數(shù)據(jù)集。

而為了展示該方案的優(yōu)勢,研究人員正在采用不同數(shù)據(jù)集的深度信息圖像和視頻來訓練MCC,以從多個角度顯示物體或整個場景。
在訓練期間,模型被剝奪了用作學習信號的每個場景或?qū)ο蟮囊恍┛捎靡晥D。該方法類似于語言或圖像模型的訓練,其中部分數(shù)據(jù)通常也被屏蔽。
Meta 3D重建表現(xiàn)出很強的普適性
Meta AI模型在測試中顯示出了有效且優(yōu)于其他方案的優(yōu)勢,團隊還表示,MCC可以處理以往從未見過的對象類別或整個場景。
此外,MCC顯示出預(yù)期的縮放特性:隨著更多的訓練數(shù)據(jù)和更多樣化的對象類別,性能顯著提高。iPhone鏡頭、ImageNet和DALL-E 2圖像也可以重建為具有適當深度信息的3D點云。
我們提出MCC,一種適用于對象和場景的通用3D重建模型,我們還展示了對具有挑戰(zhàn)性的設(shè)置的概括,包括野外捕獲和AI生成的想象物體圖像。
我們的結(jié)果表明,一種簡單的基于點的方法與類別不可知的大規(guī)模訓練相結(jié)合是有效的。我們希望這是朝著構(gòu)建用于3D理解的通用視覺系統(tǒng)邁出的一步。
來源:Mixed








