CVPR 2022 在星空下起舞,伯克利联合Intel Labs提出极弱光环境下的视频降噪方案
論文鏈接:https://arxiv.org/abs/2204.04210
項(xiàng)目主頁:https://kristinamonakhova.com/starlight_denoising/
代碼鏈接:https://github.com/monakhova/starlight_denoising/(尚未開源)
導(dǎo)讀
與某些需要在夜晚進(jìn)行捕獵的動物和鳥類相比,人類的夜視能力相對較弱,我們無法在極度弱光的環(huán)境中有效觀察到物體的運(yùn)動,例如在沒有月亮的星空下。對于專業(yè)的攝影師來說,在這種黑暗環(huán)境下可以通過延長相機(jī)的曝光時間(幾秒中或者更長的時間)從場景中收集夠足夠的光線來提高拍攝效果,但是這種方式只適用于拍攝靜態(tài)圖片,如果在拍攝畫面中有明顯運(yùn)動的視頻時,成像機(jī)制本身帶來的噪聲就足以淹沒整個畫面了。雖然已有很多的圖像或視頻降噪算法,但是這些算法往往建立在經(jīng)典的噪聲模型(高斯或泊松-高斯噪聲) 基礎(chǔ)之上,其在極度黑暗的星空環(huán)境下會失效。如果在這種環(huán)境下使用長曝光等傳感器增益手段,這樣帶來的噪聲通常是非高斯的、非線性的并且特定于傳感器的參數(shù),我們很難對這些噪聲進(jìn)行建模和表征,如果去噪算法無法理解這些噪聲的機(jī)理,而將這些噪聲誤認(rèn)為是我們希望捕捉到的運(yùn)動信號,那降噪的效果肯定會大打折扣。為了解決上述問題,加州大學(xué)伯克利分校和Intel實(shí)驗(yàn)室合作提出了一種物理啟發(fā)的噪聲模型,并結(jié)合GAN網(wǎng)絡(luò)可以對極度弱光環(huán)境下拍攝的視頻進(jìn)行降噪,從而呈現(xiàn)出非常逼真的星空下視頻降噪效果,降噪效果如下圖所示:
圖(a)展示了在一個沒有任何外部照明的夜晚拍攝的亞毫秒級(submillilux)視頻幀,圖(b)展示了對比度調(diào)整后的結(jié)果,圖(c)為本文去噪網(wǎng)絡(luò)的降噪效果。經(jīng)過降噪處理,我們可以觀察到畫面中有一位舞者在星空下起舞,但在原視頻中,我們很難觀察到這樣的動作。
1. 本文方法
目前有很多基于深度學(xué)習(xí)的視頻降噪方法,但是這些方法需要提前使用相機(jī)收集正常-噪聲樣本對來訓(xùn)練降噪器學(xué)習(xí)像素到像素之間的映射函數(shù),而且也缺乏對噪聲建模的考慮,這使得數(shù)據(jù)集和模型非常依賴相機(jī)硬件和一系列的拍攝參數(shù)。前面提到可以通過提高相機(jī)的曝光等增益設(shè)置來為靜態(tài)圖片捕獲正常-噪聲樣本對,但是使用這種方式對視頻樣本對進(jìn)行構(gòu)造則會更加復(fù)雜,可能需要架設(shè)第二臺攝像機(jī),并考慮如何將兩臺攝像機(jī)的拍攝視角進(jìn)行對齊。
為了在有限的實(shí)驗(yàn)條件下完成亞毫秒視頻去噪,作者提出了一個三步走方案:(1)使用一個較為專業(yè)的攝像機(jī),其應(yīng)該針對低光環(huán)境成像進(jìn)行優(yōu)化并設(shè)置為長曝光。(2)針對這臺攝像機(jī)建立一個物理啟發(fā)的噪聲模型(噪聲生成器),以便于可以源源不斷的獲取靜態(tài)的噪聲圖像。(3)使用上一步得到的噪聲生成器合成正常-噪聲視頻樣本對來訓(xùn)練視頻降噪器。需要注意的是,本文的噪聲生成器是在有限的靜態(tài)圖像對上訓(xùn)練得到的,因此不需要考慮對兩種圖像進(jìn)行視角對齊,同時也保證了噪聲生成器的泛化性。隨后作者將噪聲生成器合成的靜態(tài)圖像對和動態(tài)視頻對結(jié)合來訓(xùn)練視頻降噪器,整體的訓(xùn)練框架如下圖所示:
上圖左側(cè)展示了噪聲生成器的訓(xùn)練框架,其主要由一個生成器和一個判別器構(gòu)成,判別器的作用是區(qū)分真實(shí)噪聲和生成的偽噪聲,這是GAN訓(xùn)練的經(jīng)典策略。在經(jīng)過一系列長曝光/低增益和短曝光/高增益的圖像對訓(xùn)練之后,噪聲生成器可以生成出近乎真實(shí)的噪聲圖像。隨后使用生成器合成正常-噪聲視頻樣本對來訓(xùn)練視頻降噪網(wǎng)絡(luò),下面將分別介紹噪聲生成器和降噪網(wǎng)絡(luò)的構(gòu)成細(xì)節(jié)。
1.1 物理啟發(fā)的噪聲生成器
為了更加精確地?cái)M合極弱光環(huán)境中的噪聲模型,本文提出了一種物理啟發(fā)的噪聲生成器,它由幾個可學(xué)習(xí)的統(tǒng)計(jì)噪聲參數(shù)組成,此外,為了提高噪聲模型的普適性,作者在構(gòu)建模型時沒有進(jìn)行任何形式的手動校準(zhǔn),而是完全通過GAN網(wǎng)絡(luò)自動學(xué)習(xí)符合當(dāng)前環(huán)境的最佳參數(shù)。作者使用一定數(shù)量的清晰圖像(長曝光,低增益)和噪聲圖像(短曝光,高增益)對訓(xùn)練該網(wǎng)絡(luò),經(jīng)過網(wǎng)絡(luò)的對抗博弈優(yōu)化,就可以在極弱光環(huán)境和高增益相機(jī)參數(shù)設(shè)置下合成逼真的噪聲,生成器框架如下圖所示。
先前的工作已經(jīng)證明,相機(jī)在低光環(huán)境下的噪聲可以表示為散射噪聲(shot)、讀取噪聲(read)、帶狀噪聲(row)和量化噪聲(quantization)的組合,作者提出的生成器模型對這些噪聲均進(jìn)行了建模,下面一一進(jìn)行介紹。
散射噪聲(shot)和讀取噪聲(read)如上圖左下角所示,散射噪聲刻畫了光線照射到相機(jī)傳感器上的強(qiáng)度,通常被建模為泊松隨機(jī)變量,而讀取噪聲可以近似為零均值高斯隨機(jī)變量,在本文中,二者均使用異方差高斯隨機(jī)變量來近似,其中均值等于真實(shí)信號 xxx,方差由讀取參數(shù) λread\lambda_{read}λread? 和 散射噪聲參數(shù) λshot\lambda_{shot}λshot? 來設(shè)定:
Ns+Nr~N(μ=x,σ2=λread+λshotx)N_{s}+N_{r} \sim \mathcal{N}\left(\mu=x, \sigma^{2}=\lambda_{r e a d}+\lambda_{s h o t} x\right)Ns?+Nr?~N(μ=x,σ2=λread?+λshot?x)
對于帶狀噪聲(row),會在圖像中以水平或者垂直條紋的形式出現(xiàn),這種噪聲是一種與相機(jī)硬件相關(guān)的噪聲,往往會在弱光環(huán)境中產(chǎn)生。作者通過在圖像的每一行或每一列上添加固定的偏移量來模擬帶狀噪聲,其中固定偏移量是從方差為 λrow\lambda_{row}λrow? 的零均值高斯隨機(jī)變量中得出的,如上圖中所示。此外,作者還觀察到條帶噪聲的出現(xiàn)與畫面中出現(xiàn)的物體無關(guān),在一個視頻的很多幀中,往往會出現(xiàn)固定且一致的條帶噪聲,為了對此建模,作者還加入了一個具有時間一致性的帶狀噪聲 N(0,λrow?,t)\mathcal{N}\left(0, \lambda_{\text {row }, t}\right)N(0,λrow?,t?),它在每一組幀序列中都是保持靜態(tài)不變的,與普通帶狀噪聲類似,作者將這種噪聲也建模為方差為 λrow,t\lambda_{row}, tλrow?,t 的零均值高斯隨機(jī)變量。
最后,作者添加了一個統(tǒng)一的噪聲分量來近似傳感器帶來的量化噪聲(quantization):
Nq~U(λquant?)N_{q} \sim \mathcal{U}\left(\lambda_{\text {quant }}\right)Nq?~U(λquant??)
其中 λquant\lambda_{quant}λquant? 是量化噪聲的間隔參數(shù)。通常情況下,量化噪聲分量是根據(jù)相機(jī)傳感器使用的位數(shù)來明確定義的,但是在實(shí)驗(yàn)中發(fā)現(xiàn),如果對這個噪聲參數(shù)進(jìn)行調(diào)整可以有效改善噪聲生成器整體效果,因此作者使用一組圖像序列數(shù)據(jù)中的平均值來作為噪聲分量 NfN_{f}Nf? 的值,并令其在整個數(shù)據(jù)中的所有圖像上保持不變,作者發(fā)現(xiàn)使用這種固定的調(diào)整模式來確定量化噪聲分量的參數(shù)可以改善生成噪聲和真實(shí)噪聲之間的Kullback-Leibler(KL)散度。
將上述一系列噪聲分量依次疊加在干凈清晰的圖像上之后,得到初始的物理啟發(fā)噪聲圖,再將該噪聲圖像送入到一個具有殘差結(jié)構(gòu)的2D-Unet網(wǎng)絡(luò)中,用來學(xué)習(xí)初始疊加噪聲到真實(shí)噪聲之間的映射。
1.2 視頻降噪網(wǎng)絡(luò)
在訓(xùn)練好噪聲生成器之后,作者構(gòu)建了個由正常-噪聲樣本對組成的視頻降噪數(shù)據(jù)集,下一步就是根據(jù)該數(shù)據(jù)集訓(xùn)練視頻降噪網(wǎng)絡(luò),該網(wǎng)絡(luò)可以很好的泛化到來自真實(shí)環(huán)境中相機(jī)拍攝到的嘈雜視頻。受突變?nèi)ピ敕椒╗1]的啟發(fā),作者也選取了多個連續(xù)的噪聲幀聯(lián)合對視頻中心幀進(jìn)行去噪,并設(shè)計(jì)了一種可以一次對多個幀進(jìn)行操作的網(wǎng)絡(luò)架構(gòu),這種方式在弱光環(huán)境下具有明顯的優(yōu)勢,因?yàn)閷σ贿B串的圖像進(jìn)行去噪可以比對單圖像去噪有多維度信息作為參考,因此可以有效提高圖像的降噪質(zhì)量,此外,對噪聲幀序列一起去噪,可以幫助模型保持跨幀的時間一致性并減少整體降噪后視頻中的閃爍現(xiàn)象,本文的降噪網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
本文的降噪網(wǎng)絡(luò)結(jié)是在FastDVDNet[2]網(wǎng)絡(luò)的基礎(chǔ)上搭建而成的,FastDVDNet是目前較為先進(jìn)的視頻去噪器,它可以隱式處理視頻中的運(yùn)動估計(jì),作者將原始FastDVDNet中的基礎(chǔ)單元U-Net替換成了HRNet,發(fā)現(xiàn)與原始U-Net架構(gòu)相比,HRNet可以使最終去噪視頻的時間一致性更好。本文的降噪網(wǎng)絡(luò)可以直接運(yùn)行在RAW格式的原始視頻序列上,經(jīng)過一定的后處理操作就可以得到最終的降噪視頻。
2. 實(shí)驗(yàn)分析
在實(shí)驗(yàn)部分,作者在極弱光環(huán)境下從攝像頭中收集了三組數(shù)據(jù)集:(1)靜態(tài)場景中清晰圖像(長曝光,低增益)和噪聲圖像(短曝光,高增益)圖像對,(2)運(yùn)動場景中的清晰圖像,(3)運(yùn)動場景中的極弱光環(huán)境圖像(submillilux)。所有的圖像和視頻均以RAW格式進(jìn)行存儲,其中靜態(tài)場景中的配對數(shù)據(jù)集主要用來訓(xùn)練噪聲生成器,然后配對數(shù)據(jù)集和運(yùn)動場景中的清晰圖像組合起來用于訓(xùn)練降噪網(wǎng)絡(luò),而在運(yùn)動場景中采集的極弱光環(huán)境圖像(submillilux dataset)用于代表真實(shí)環(huán)境的測試數(shù)據(jù)集來評估所提方法的性能。
本文實(shí)驗(yàn)主要分為兩部分,分別對噪聲生成器和視頻降噪網(wǎng)絡(luò)進(jìn)行評估,在噪聲生成器的評估實(shí)驗(yàn)中,作者重點(diǎn)對每個物理噪聲分量進(jìn)行了消融分析,還與其他噪聲模型進(jìn)行了對比,例如ELD、NoiseFlow和CA-GAN,其中,ELD是一種傳統(tǒng)方法,后兩者是深度學(xué)習(xí)方法,實(shí)驗(yàn)效果如下表所示,可以看到本文方法的性能最好,同時對于組成噪聲各個分量之間的消融實(shí)驗(yàn)也表明了各個分量對最終噪聲擬合效果的貢獻(xiàn)。
此外作者也在下圖中進(jìn)行了可視化對比,可以看到,NoiseFlow和CA-GAN方法都直接忽略了在數(shù)據(jù)集中加入的帶狀噪聲(row),ELD雖然可以捕獲帶狀噪聲,但是它也忽略了其他噪聲分量。
在對視頻降噪網(wǎng)絡(luò)的評估中,對本文提出的視頻整體降噪方案進(jìn)行了評價,主要分為兩部分:對單圖像去噪和對視頻片段去噪,作者分別計(jì)算了本文方法與其他對比方法的三個圖像質(zhì)量評價指標(biāo):PSNR、SSIM和LPIPS,結(jié)果如下表所示,本文的方法在這三個指標(biāo)上均達(dá)到了最好的效果。
作者還在預(yù)留出來的極弱光環(huán)境圖像(submillilux dataset)上進(jìn)行了效果對比,如下圖所示,可以看到本文方法與其他兩個視頻降噪方法相比,有效的減少了條紋偽影,保留了更多的圖像細(xì)節(jié),例如夜空中的繁星。
3. 總結(jié)
本文針對極弱光環(huán)境下的圖像和視頻降噪問題發(fā)起了挑戰(zhàn),通過結(jié)合相機(jī)硬件本身涵蓋的物理參數(shù)和基于深度學(xué)習(xí)的圖像噪聲建模手段提出了一種物理啟發(fā)的噪聲生成器,并根據(jù)該生成器構(gòu)建了一系列具有特殊用途的數(shù)據(jù)集,有力的推動了后續(xù)視頻降噪網(wǎng)絡(luò)的訓(xùn)練。整體一套流程展現(xiàn)了基于深度學(xué)習(xí)的去噪方法在這種極端光照條件下的強(qiáng)大能力。作者團(tuán)隊(duì)還希望通過這項(xiàng)工作能夠在未來幫助其他領(lǐng)域在極弱光環(huán)境下開展科學(xué)研究(例如研究在無月條件下或森林中的夜間動物行為)。
參考
[1] Ben Mildenhall, Jonathan T Barron, Jiawen Chen, Dillon Sharlet, Ren Ng, and Robert Carroll. Burst denoising with kernel prediction networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2502–2510, 2018.
[2] Matias Tassano, Julie Delon, and Thomas Veit. Fastdvdnet: Towards real-time deep video denoising without flow estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1354–1363, 2020.
-The End-
關(guān)于我“門”
▼
將門是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動型創(chuàng)業(yè)公司的新型創(chuàng)投機(jī)構(gòu),旗下涵蓋將門創(chuàng)新服務(wù)、將門-TechBeat技術(shù)社區(qū)(TechBeat)以及將門創(chuàng)投基金。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 在星空下起舞,伯克利联合Intel Labs提出极弱光环境下的视频降噪方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: calico的日志
- 下一篇: chrome 移动Web H5 调试