高清視頻竟不是真的,幾張照片渲染的3D場景讓你難辨真?zhèn)?/h1>
由 方應(yīng) 分享
時間:
瀏覽:0
在開始今天的介紹前,先一起來看看下面的幾個場景。
請注意,上述動圖完全是由多張照片渲染出來的3D 場景。人類很難發(fā)現(xiàn)它們的破綻。
那讓我們一起看看,這種場景是怎樣實現(xiàn)的。
網(wǎng)格和點是最常見的三維場景表示法,因為它們是顯式的,非常適合基于 GPU/CUDA 的快速光柵化。相比之下,最新的神經(jīng)輻射場(NeRF)方法建立在連續(xù)場景表征的基礎(chǔ)上,通常使用體積光線渲染優(yōu)化多層感知器(MLP),對捕捉到的場景進(jìn)行新視角合成。雖然這些方法的連續(xù)性有助于優(yōu)化,但渲染所需的隨機(jī)取樣成本很高,而且會產(chǎn)生噪聲。
來自法國蔚藍(lán)海岸大學(xué)的研究者引入了一種新方法,能夠結(jié)合這兩種方法的優(yōu)點:3D 高斯表征有著 SOAT 視覺質(zhì)量,并且在訓(xùn)練時間上也進(jìn)行了優(yōu)化,而基于 tile 的拋雪球算法(tile-based splatting)在幾個數(shù)據(jù)集上以1080p 分辨率實現(xiàn) SOTA 實時渲染。
論文地址:https://huggingface.co/papers/2308.04079
研究團(tuán)隊立下目標(biāo):對多張照片拍攝的場景進(jìn)行實時渲染,并在典型真實場景中實現(xiàn)時間最優(yōu)化。此前,F(xiàn)ridovich-Kei 等人提出的方法雖然實現(xiàn)了快速訓(xùn)練,但難以達(dá)到當(dāng)前 SOTA NeRF 方法所獲得的視覺質(zhì)量,而后者需要長達(dá)48小時的訓(xùn)練時間。還有研究提出快速但質(zhì)量較低的輻射場方法,可以根據(jù)場景實現(xiàn)交互式渲染(每秒10-15幀),但這種方法無法實現(xiàn)高分辨率下的實時渲染。
接下來,我們來看本文是如何實現(xiàn)的。
方法
研究團(tuán)隊的解決方案主要由三個部分組成。
第一,引入3D 高斯作為一種靈活而富有表現(xiàn)力的場景表征。輸入與 NeRF 方法類似,即使用結(jié)構(gòu) - 運動(SfM)校準(zhǔn)像機(jī),并且使用稀疏點云初始化3D 高斯集合,點云來自 SfM 過程。此外,該研究只用 SfM 點作為輸入就能獲得高質(zhì)量的結(jié)果。需要注意的是,對于 NeRF 合成數(shù)據(jù)集,即使采用隨機(jī)初始化,本文方法也能獲得高質(zhì)量的結(jié)果。研究表明,3D 高斯是一個很好的選擇。
第二,優(yōu)化3D 高斯屬性,即3D 位置、不透明度
本文來源于?機(jī)器之心公眾號,如有侵權(quán)請聯(lián)系刪除
本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點不代表本站立場。閱讀前請查看【免責(zé)聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/96386.html