消费级GPU、速度提升3000倍,微软FastNeRF实现200FPS高保真神经渲染
作者|小舟、杜偉
?來源|機(jī)器之心
近日,微軟提出了一種基于 NeRF 的新系統(tǒng) FastNeRF,用它來渲染逼真圖像,速度能有多快呢?在高端消費(fèi)級(jí) GPU 上達(dá)到了驚人的 200FPS!
神經(jīng)輻射場(chǎng)(Neural Radiance Fields, NeRF)領(lǐng)域的最新研究展示了神經(jīng)網(wǎng)絡(luò)編碼復(fù)雜 3D 環(huán)境的方式,這類方法能以新的視角真實(shí)地渲染環(huán)境。渲染這些圖像需要非常大的計(jì)算量,即使在高端硬件上,這些新進(jìn)展與實(shí)現(xiàn)交互式速率仍然相去甚遠(yuǎn)。
在本文中,來自微軟的研究者提出了一種名為 FastNeRF 的新系統(tǒng),它以每秒數(shù)百幀的速度渲染對(duì)象的高分辨率真實(shí)性新視圖。相比之下,NeRF 等現(xiàn)有方法在速度上要慢幾個(gè)數(shù)量級(jí),并且只能以交互速率渲染分辨率很低的圖像。
FastNeRF 的提出受到了移動(dòng)和混合現(xiàn)實(shí)設(shè)備上場(chǎng)景的啟發(fā),并且是第一個(gè)基于 NeRF、能夠在高端消費(fèi)級(jí) GPU 上以 200Hz 渲染高真實(shí)感圖像的系統(tǒng)(如上圖右)。該方法的核心思想是圖啟發(fā)的分解,它允許:在空間中的每個(gè)位置緊湊地緩存一個(gè)深度輻射圖;使用光線方向有效地查詢?cè)搱D以估計(jì)渲染圖像中的像素值。
大量的實(shí)驗(yàn)表明,在運(yùn)行速度上,FastNeRF 是原始 NeRF 算法的 3000 倍,比加速版 NeRF 至少快一個(gè)數(shù)量級(jí),同時(shí)又保持了視覺質(zhì)量和可擴(kuò)展性。
在 Realistic 360 Synthetic 數(shù)據(jù)集中 Lego 場(chǎng)景圖上,新方法與其他方法的速度評(píng)估對(duì)比結(jié)果。
論文地址:
https://arxiv.org/abs/2103.10380
技術(shù)細(xì)節(jié)
架構(gòu)
FastNeRF 在速度上取得了巨大的突破。這讓在高端消費(fèi)級(jí)硬件上以 200Hz 以上渲染高分辨率逼真圖像。
該方法的核心包括將 NeRF 分解為兩個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)是生成深度輻射圖的位置依賴網(wǎng)絡(luò);另一個(gè)是生成權(quán)重的方向依賴網(wǎng)絡(luò)。權(quán)重的內(nèi)積和深度輻射圖用于預(yù)估場(chǎng)景中特定位置從特定方向觀察所呈現(xiàn)的顏色。FastNeRF 架構(gòu)可以被高效緩存,在保持 NeRF 的視覺質(zhì)量的同時(shí),顯著提升了測(cè)試時(shí)間效率。
下圖 2 展示了 NeRF 和 FastNeRF 網(wǎng)絡(luò)架構(gòu)的比較:
圖 2:左:NeRF 神經(jīng)網(wǎng)絡(luò)架構(gòu)。(x, y, z)代表輸入樣例位置,(θ, φ)代表光線方向,(r, g, b, σ)是輸出顏色和透明度值。右:FastNeRF 架構(gòu)將同一任務(wù)分為兩個(gè)適合緩存的神經(jīng)網(wǎng)絡(luò)。位置依賴網(wǎng)絡(luò) F_pos 輸出一張深度輻射圖(u, v, w),其中包含 D 個(gè)分量。而 F_dir 在輸入光線方向時(shí),輸出分量的權(quán)重(β_1, . . . , β_D)。
實(shí)現(xiàn)
訓(xùn)練 FastNeRF 和訓(xùn)練 NeRF 一樣。研究者分別使用 8 層和 4 層的 MLP 建模 FastNeRF 的 F_pos 和 F_view,并將位置編碼用于輸入。
在測(cè)試階段,FastNeRF 和 NeRF 都將一組相機(jī)參數(shù)作為輸入。這些參數(shù)用于為輸出中的每個(gè)像素生成光線,然后沿著每條光線生成大量樣本并進(jìn)行集成。FastNeRF 能夠使用其神經(jīng)網(wǎng)絡(luò)表征來執(zhí)行,當(dāng)進(jìn)行緩存時(shí),性能會(huì)大幅度提升。
實(shí)驗(yàn)結(jié)果
該研究在 NeRF 論文中使用的 Realistic 360 Synthetic 和 Local Light Field Fusion(LLFF)數(shù)據(jù)集上進(jìn)行了定量和定性評(píng)估。NeRF 合成數(shù)據(jù)集由復(fù)雜對(duì)象的 360 度視圖組成,而 LLFF 數(shù)據(jù)集由前向場(chǎng)景組成,圖像較少。在所有與 NeRF 的比較中,該研究均使用與 NeRF 論文中相同的訓(xùn)練參數(shù)。
下面來看一下實(shí)驗(yàn)結(jié)果。如下圖 4 所示,FastNeRF 與 NeRF 在使用 8 個(gè)分量的 800^2 像素的 [25] 數(shù)據(jù)集上的定性比較。小型緩存是指我們的方法緩存在 2563,而大型緩存是在 7683。更改緩存大小可實(shí)現(xiàn)計(jì)算和內(nèi)存 trading,以達(dá)到類似于傳統(tǒng)計(jì)算機(jī)圖形中的細(xì)節(jié)級(jí)別(LOD)的圖像質(zhì)量。
如下圖 5 所示,在使用 6 種因子、504 × 378 像素的數(shù)據(jù)集上,新方法與 NeRF 的定量對(duì)比結(jié)果:
下表 1 中,研究者提供了不緩存網(wǎng)格和以高分辨率緩存時(shí),FastNeRF 與 NeRF 在三種度量(PSNR、SSIM、LPIPS)上的對(duì)比,并給出了存在緩存時(shí)新方法的平均速度。
下表 2 為該方法與 NeRF 的速度比較。椅子(Chair)和樂高(Lego)的場(chǎng)景是以 800^2 的分辨率渲染的。犀牛角(Horns)和葉子(Leaves)場(chǎng)景圖則是以 504 × 378 分辨率渲染的。該方法在存在緩存時(shí)速度沒有低于 100FPS,并且經(jīng)常會(huì)更快。
下表 3 為分量數(shù)量和網(wǎng)格分辨率對(duì)緩存輪船(ship)場(chǎng)景所需 PSNR 和內(nèi)存的影響。注意到有多種因素都能夠增加網(wǎng)格稀疏性。該研究發(fā)現(xiàn) 8 或 6 個(gè)分量是一種合理的折衷方案。
下圖 6 為使用結(jié)合變形場(chǎng)網(wǎng)絡(luò)的 FastNeRF 渲染的人臉圖像。使用 FastNeRF 可以讓人臉表情圖像的渲染速度達(dá)到 30FPS。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的消费级GPU、速度提升3000倍,微软FastNeRF实现200FPS高保真神经渲染的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 长篇问答任务(LFQA)的发展面临哪些阻
- 下一篇: 艾灸的作用和功效(艾灸的作用与功效有哪些