字節(jié)跳動提出高質(zhì)量3D Gaussian-Splatting場景重建及低延遲重渲染技術(shù)

?? 由 文心大模型 生成的文章摘要

近期,火山引擎多媒體實(shí)驗(yàn)室團(tuán)隊(duì)提出了一種高質(zhì)量3D Gaussian-Splatting場景重建及低延遲重渲染技術(shù),用于對場景進(jìn)行高質(zhì)量的重建,并支持復(fù)雜的重打光及實(shí)時(shí)渲染。該及時(shí)已經(jīng)實(shí)際應(yīng)用在虛擬直播等VR/AR/XR應(yīng)用中。同時(shí),該技術(shù)被圖形學(xué)頂會SIGGRAPH 24收錄,并被邀請?jiān)?NeRFs and Lighting session做正式匯報(bào)。

01 研究背景

隨著虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)的快速發(fā)中,高質(zhì)量的三維重建和三維渲染顯得尤為重要。3D Gaussian Splatting的出現(xiàn)最近在神經(jīng)渲染領(lǐng)域引起了一場革命,該技術(shù)將點(diǎn)云表示為3D高斯函數(shù),使用可微分的光柵化進(jìn)行渲染和優(yōu)化,進(jìn)而實(shí)現(xiàn)了高質(zhì)量的新視角實(shí)時(shí)渲染。然而,與成熟的基于網(wǎng)格的渲染管線相比,GS在生成復(fù)雜的陰影和動態(tài)照明效果方面仍面臨挑戰(zhàn)。為了解決該問題,火山引擎研究團(tuán)隊(duì)提出了一種幾何增強(qiáng)的3D Gaussian Splatting的重建算法,用于對場景進(jìn)行高質(zhì)量的幾何與外觀重建,并實(shí)現(xiàn)了基于高斯光柵化的延遲渲染管線從而支持重光照、陰影、Mesh混合渲染并支持實(shí)時(shí)渲染,并實(shí)際應(yīng)用在虛擬直播等VR/AR/XR應(yīng)用中(如圖1、2)。通過該項(xiàng)技術(shù),提升了GS建模的視覺渲染效果和編輯能力,拓寬了3D GS的實(shí)際應(yīng)用場景。

02 方法介紹

本文介紹的方法如下:

1.幾何增強(qiáng)3D高斯方法
圖3 幾何增強(qiáng)的3D高斯算法流程
圖3 幾何增強(qiáng)的3D高斯算法流程

為了進(jìn)一步提升3D GS的幾何表達(dá)能力,團(tuán)隊(duì)提出了一種幾何增強(qiáng)的3D高斯方法,增強(qiáng)了GS對幾何深度和法線渲染能力。具體來說,這項(xiàng)工作為每個(gè)3D高斯引入了一個(gè)法線屬性n,在訓(xùn)練過程中,使用Alpha-blending為指定視點(diǎn)渲染深度和法線圖,并使用深度圖計(jì)算偽法線來監(jiān)督法線屬性及高斯點(diǎn)位置的優(yōu)化。其中,直接使用深度梯度產(chǎn)生的偽法線對噪聲非常敏感,導(dǎo)致偽法線非常嘈雜,并且具有多視角不一致的問題,為此,該方法為深度、法線添加正則化項(xiàng)約束,并使用Appearance Embdeeing的方式為每個(gè)圖像id編碼一個(gè)外觀因子作用于渲染圖像,緩解多視角拍攝的外觀不一致問題。使用該方法,可以實(shí)現(xiàn)高質(zhì)量的場景外觀渲染和幾何重建。算法pipeline如圖3所示。

圖4 對比原始的3D GS,本文方法除支持法線渲染,同時(shí)優(yōu)化了深度/透明度質(zhì)量
圖4 對比原始的3D GS,本文方法除支持法線渲染,同時(shí)優(yōu)化了深度/透明度質(zhì)量

對比原始的3D GS,該方法在不需要其他額外輸入的情況下,可以為場景重建出高質(zhì)量的深度及法線(如圖4)。

2.高斯延遲渲染
圖5 延遲渲染管線
圖5 延遲渲染管線

進(jìn)一步地,團(tuán)隊(duì)實(shí)現(xiàn)了基于高斯光柵化的延遲渲染管線(如圖5),兼容主流的光源類型、實(shí)時(shí)陰影的渲染,以及與傳統(tǒng)Mesh模型混合渲染。整個(gè)渲染管線包含包括兩個(gè)階段:首先是G-buffer渲染,著色器從指定的攝像機(jī)視點(diǎn)渲染GS場景,使用光柵化創(chuàng)建G-buffer Texture,包括顏色、法線、shadow map和深度;其次,延遲照明和合成階段,渲染器根據(jù)G-buffer中的信息計(jì)算每個(gè)像素的照明和陰影,以確定其在照明影響下的最終顏色。其中,為了處理平行光源,該技術(shù)為光柵化管線引入了正交投影模型,從而,3D 高斯分布通過計(jì)算相機(jī)空間協(xié)方差矩陣Σ′ 實(shí)現(xiàn)到2D空間的正交投影:

以上展示了通過延遲渲染管線,可以使3D GS支持復(fù)雜光效的渲染。第一個(gè)內(nèi)容展示了點(diǎn)光源照明效果,第二個(gè)內(nèi)容展示了平行光源的打光及陰影渲染。

03 技術(shù)應(yīng)用? ?

研究團(tuán)隊(duì)將該渲染系統(tǒng)集成到了廣泛使用的Unity和Unreal Engine(UE)平臺,開發(fā)了一套3D高斯渲染插件。允許用戶將Unity/UE支持的各種復(fù)雜光源(包括點(diǎn)光源、定向光源、體積光源和環(huán)境光源)集成到生成的3D高斯中。系統(tǒng)還支持在不同照明環(huán)境中實(shí)時(shí)渲染動態(tài)陰影,并能夠與其他網(wǎng)格資產(chǎn)一起渲染。該系統(tǒng)可以無縫集成到現(xiàn)有工作流程中,有效地將3D高斯散射技術(shù)引入XR/MR應(yīng)用。這種集成顯著增強(qiáng)了與3D高斯相關(guān)的創(chuàng)意和編輯能力,使其更加多樣化和實(shí)用。

使用該系統(tǒng),團(tuán)隊(duì)開發(fā)了一套虛擬直播應(yīng)用。結(jié)合其他AI技術(shù),可以將任意場景人物實(shí)拍直播與虛擬場景進(jìn)行融合,以極低成本完成直播布景,并支持二次編輯創(chuàng)作,豐富直播創(chuàng)意。

同時(shí),可以支持對AIGC Video生成的素材進(jìn)行3D資產(chǎn)的創(chuàng)建及二次編輯,如下所示。

多媒體實(shí)驗(yàn)室介紹? ?

火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數(shù)項(xiàng)國際級技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。

火山引擎是字節(jié)跳動旗下的云服務(wù)平臺,將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級中實(shí)現(xiàn)持續(xù)增長。