国防科大提出基于可变形三维卷积的视频超分辨,代码已开源
原文鏈接:https://bbs.cvmart.net/articles/3041
專注計(jì)算機(jī)視覺前沿資訊和技術(shù)干貨
微信公眾號(hào):極市平臺(tái)
官網(wǎng):https://www.cvmart.net/
視頻是具有時(shí)間連續(xù)性的圖像集合,其中每幀圖像的上下文信息(空域信息)與不同幀之間的互補(bǔ)信息(時(shí)域信息)都有助于提升視頻超分辨的性能。近日,來自國防科技大學(xué)的學(xué)者提出基于可變形三維卷積的視頻超分辨網(wǎng)絡(luò)(D3Dnet),通過將可變形卷積(Deformable Convolution)和三維卷積(3D Convolution)有機(jī)結(jié)合,同時(shí)實(shí)現(xiàn)高效時(shí)空信息建模與靈活幀間運(yùn)動(dòng)補(bǔ)償。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)生成視頻的清晰度、流暢度與網(wǎng)絡(luò)的運(yùn)行效率均處于領(lǐng)域先進(jìn)水平。論文信息如下:
論文鏈接: https://arxiv.org/pdf/2004.02803.pdf
代碼鏈接: https://github.com/XinyiYing/D3Dnet
引言(Introduction)
隨著當(dāng)前高分辨率視頻的需求增多,視頻超分辨技術(shù)被廣泛應(yīng)用于視頻監(jiān)控與高清影音設(shè)備中。相較于單幅圖像超分辨,視頻超分辨的核心與難點(diǎn)在于充分利用時(shí)域互補(bǔ)信息。然而,視頻的幀間運(yùn)動(dòng)給該任務(wù)帶來了較大的挑戰(zhàn)。
現(xiàn)有的視頻超分辨算法大多是兩階段的(two-stage),即先在空域進(jìn)行特征提取,然后在時(shí)域進(jìn)行幀間運(yùn)動(dòng)補(bǔ)償。此類框架無法充分結(jié)合視頻序列內(nèi)的時(shí)空信息,從而限制了超分辨性能,降低了輸出視頻序列的流暢性。
針對(duì)以上問題,該文提出可變形三維卷積網(wǎng)絡(luò)(D3Dnet)實(shí)現(xiàn)單階段(one-stage)的視頻超分辨,即使用可變形三維卷積(D3D)對(duì)時(shí)空信息進(jìn)行漸進(jìn)式融合,并自適應(yīng)地完成幀間運(yùn)動(dòng)補(bǔ)償。該文在公開數(shù)據(jù)集Vid4,Vimeo-90K,SPMC-11上對(duì)所提算法進(jìn)行了測試評(píng)估,實(shí)驗(yàn)結(jié)果表明,相比于領(lǐng)域內(nèi)其他先進(jìn)算法,D3Dnet能夠重建出精度更高且更加流暢的視頻序列,同時(shí)具有合理的參數(shù)量與較高的運(yùn)行效率。
方法(Method)
1、可變形三維卷積(D3D)
如圖1所示,D3D將可變形二維卷積(Deformable Convolution, DCN)與三維卷積(3D Convolution, C3D)進(jìn)行結(jié)合,輸入特征中的淺橙色立方體代表3×3×3的C3D卷積核,深橙色立方體代表3×3×3的D3D卷積核。其中,D3D卷積核的偏移量(offset)由偏移量生成器(3×3×3的C3D卷積)產(chǎn)生。如圖1上方部分所示,位于偏移空間(offset field)的特征的通道維度為2N(此處N為27),代表對(duì)應(yīng)3×3×3卷積核在高度H和寬度W上的偏移量。
2、可變形三維卷積網(wǎng)絡(luò)(D3Dnet)
圖2 D3Dnet結(jié)構(gòu)圖
基于D3D,該文構(gòu)建了D3Dnet,如圖2所示。首先,將7幀視頻序列送入C3D進(jìn)行初始特征提取。隨后,將提取的特征輸入5個(gè)級(jí)聯(lián)的殘差D3D模塊(ResD3D),同時(shí)實(shí)現(xiàn)時(shí)空信息進(jìn)行提取與幀間運(yùn)動(dòng)補(bǔ)償。而后,采用瓶頸層(bottleneck)將運(yùn)動(dòng)補(bǔ)償后的視頻特征進(jìn)行融合,并將融合后的特征送入6個(gè)級(jí)聯(lián)的殘差塊(Resblock)進(jìn)行重建。最后,將重建后的特征依次輸入1×1卷積層,pixel-shuffle層,1×1卷積層,得到高分辨率參考幀圖像。
實(shí)驗(yàn)(Experiments)
1、消融學(xué)習(xí)(Ablation Study)
實(shí)驗(yàn)部分首先通過消融學(xué)習(xí)對(duì)網(wǎng)絡(luò)中不同模塊和方案的有效性進(jìn)行驗(yàn)證。
1)雙階段方法(two-stage)和單階段方法(C3D,D3D)。
圖3 雙階段方法(two-stage)和單階段方法(C3D, D3D)性能對(duì)比,橫坐標(biāo)代表模型中的殘差模塊的數(shù)量。
圖3實(shí)驗(yàn)表明,相較于two-stage 算法,one-stage算法能夠更加充分地利用視頻中的時(shí)空信息,以較少的參數(shù)獲得更好的性能;相較于C3D,D3D能夠靈活地提取時(shí)空信息,有效對(duì)幀間運(yùn)動(dòng)進(jìn)行補(bǔ)償,獲得質(zhì)量更高的超分辨視頻序列。
2)輸入視頻的幀數(shù)。
表1實(shí)驗(yàn)表明,輸入視頻幀數(shù)的增加引入了更多的時(shí)域信息,從而提升了超分辨性能。
2、算法對(duì)比(Comparison to the State-of-the-arts)
該文在表2所示的3個(gè)公開數(shù)據(jù)集上將D3Dnet與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)以及視頻超分辨算法VSRnet(TCI16),VESPCN(CVPR17),SOF-VSR(TIP20),以及TDAN(CVPR20)進(jìn)行了比較。此外,該文還采用了雙三次插值的結(jié)果作為基準(zhǔn)對(duì)照組。算法對(duì)比的結(jié)果如下。
1)數(shù)值結(jié)果
表2 不同超分辨方法數(shù)值結(jié)果比較(PSNR/SSIM)
2)視覺效果
圖4 不同超分辨算法視覺效果比較
3)流暢度與運(yùn)行效率
表3 不同超分辨方法生成的視頻流暢度和運(yùn)行效率比較
與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)相比,D3Dnet具有優(yōu)異的性能和運(yùn)行效率。與視頻超分辨算法TDAN(CVPR20)、SOF-VSR(TIP20)相比,D3Dnet通過合理增加計(jì)算成本進(jìn)一步提升了視頻超分辨的性能(更高的PSNR/SSIM指標(biāo)、更好的視覺效果、更優(yōu)的視頻流暢度)。
結(jié)論(Conclusion)
該文提出基于可變形三維卷積的視頻超分辨網(wǎng)絡(luò)(D3Dnet),通過將可變形卷積與三維卷積相結(jié)合,設(shè)計(jì)了可變形三維卷積(D3D)以同時(shí)進(jìn)行時(shí)空信息提取與幀間運(yùn)動(dòng)補(bǔ)償。D3Dnet結(jié)構(gòu)簡單、設(shè)計(jì)精巧,相比于領(lǐng)域內(nèi)其他先進(jìn)算法,在不大幅度增加計(jì)算開銷的前提下,顯著提升了視頻超分辨的性能。得益于較好的時(shí)空建模與幀間運(yùn)動(dòng)補(bǔ)償能力,D3Dnet輸出的視頻具有更高的流暢度。
關(guān)注極市平臺(tái)公眾號(hào)(ID:extrememart),獲取計(jì)算機(jī)視覺前沿資訊/技術(shù)干貨/招聘面經(jīng)等
總結(jié)
以上是生活随笔為你收集整理的国防科大提出基于可变形三维卷积的视频超分辨,代码已开源的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020年计算机视觉综述论文汇总!涵盖1
- 下一篇: Label Assign综述:提升目标检