李飛飛團(tuán)隊(duì)RTFM模型震撼發(fā)布:?jiǎn)螇KH100 GPU實(shí)現(xiàn)實(shí)時(shí)3D世界渲染,AI建模迎來(lái)新范式

?? 由 文心大模型 生成的文章摘要

李飛飛領(lǐng)銜的WorldLabs正式發(fā)布實(shí)時(shí)生成式世界模型RTFM(Real-Time Frame Model),這款基于自回歸擴(kuò)散Transformer架構(gòu)的AI系統(tǒng),以顛覆性技術(shù)打破了世界模型對(duì)海量算力的依賴(lài)——僅需一塊H100GPU,便能以交互式幀率生成持久且3D一致的虛擬世界。與谷歌Genie3、騰訊混元3D等同類(lèi)產(chǎn)品相比,RTFM徹底摒棄了顯式3D表征構(gòu)建,通過(guò)端到端學(xué)習(xí)大規(guī)模視頻數(shù)據(jù),直接從2D圖像輸入生成任意視點(diǎn)的新畫(huà)面,被業(yè)內(nèi)稱(chēng)為”學(xué)會(huì)渲染的AI”。?

傳統(tǒng)3D渲染需精確計(jì)算光線追蹤、材質(zhì)反射等物理過(guò)程,生成4K/60幀畫(huà)面的算力消耗相當(dāng)于每秒處理一本《哈利波特》的數(shù)據(jù)量。而RTFM通過(guò)模型蒸餾與推理堆棧優(yōu)化,將實(shí)時(shí)渲染所需硬件壓縮至單塊H100GPU。前谷歌高級(jí)工程師評(píng)價(jià)稱(chēng),這一突破真正解決了世界模型可擴(kuò)展性的核心瓶頸。?

不同于依賴(lài)三角網(wǎng)格、高斯濺射的傳統(tǒng)管線,RTFM通過(guò)觀看海量視頻,自主學(xué)習(xí)三維幾何、光影反射等物理規(guī)律。其核心機(jī)制是將輸入幀轉(zhuǎn)化為KV緩存激活值,形成隱式世界表征,再通過(guò)注意力機(jī)制提取空間信息生成新視角——這種”學(xué)習(xí)型渲染器”模式,使模型既能基于稀疏照片重建真實(shí)場(chǎng)景,也能渲染想象中的虛擬空間。?

針對(duì)自回歸模型”探索越遠(yuǎn)記憶越重”的痛點(diǎn),RTFM創(chuàng)新引入”帶位姿幀空間記憶”與”上下文調(diào)度”技術(shù):每幀畫(huà)面均標(biāo)記3D坐標(biāo),生成新視角時(shí)僅調(diào)用附近相關(guān)幀作為上下文,而非全量記憶。這使得用戶(hù)可無(wú)限探索虛擬空間,即使移開(kāi)視線再返回,場(chǎng)景仍保持連貫一致。網(wǎng)友戲稱(chēng):”我們的世界或許真的在單塊H100上運(yùn)行”。?

在大語(yǔ)言模型同質(zhì)化加劇的2025年,世界模型已成為大廠競(jìng)爭(zhēng)新焦點(diǎn)。RTFM的問(wèn)世,與谷歌Genie3(側(cè)重智能體訓(xùn)練)、騰訊混元3D(主打工具化導(dǎo)出)形成差異化路線:?
技術(shù)路線:摒棄顯式3D,以純數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)幾何建模?

落地門(mén)檻:?jiǎn)慰ㄟ\(yùn)行能力遠(yuǎn)超需多GPU集群的同類(lèi)產(chǎn)品?

生態(tài)策略:開(kāi)放試玩入口,降低開(kāi)發(fā)者參與成本?

李飛飛團(tuán)隊(duì)在技術(shù)白皮書(shū)強(qiáng)調(diào),當(dāng)前版本僅是起點(diǎn)——未來(lái)將增強(qiáng)動(dòng)態(tài)場(chǎng)景模擬與物體交互能力,更大規(guī)模模型有望實(shí)現(xiàn)電影級(jí)畫(huà)質(zhì)渲染。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」