raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型
計(jì)算機(jī)視覺(jué)三大國(guó)際頂級(jí)會(huì)議之一的 ECCV 2020 已經(jīng)召開(kāi)。今年 ECCV 共收到有效投稿 5025 篇,是 ECCV 2018 論文投稿數(shù)量的二倍還要多,接收論文1361 篇,接收率為 27%,相比上屆會(huì)議下降了約 5%。在接收論文中,oral論文數(shù)為 104 篇,占有效投稿總數(shù)的 2%,spotlight 論文數(shù)目為 161 篇,占比約 3%。其中,最佳論文獎(jiǎng)由普林斯頓大學(xué) Zachary Teed 和 Jia Deng 摘得,論文題名為RAFT: Recurre-nt All-Pairs Field Transforms for Optical Flow。論文提出的RAFT模型由于其卓越的泛化能力,成為最新的光流baseline模型:該模型在KITTI在線評(píng)價(jià)指標(biāo)中獲得5.10%的異常值比率,相比于當(dāng)前公布的最佳模型提升了16%,且在MPI-Sintel在線評(píng)價(jià)指標(biāo)中獲得2.855px的端點(diǎn)誤差,相比于當(dāng)前公布的最佳模型提升了30%。本文首先將對(duì)光流的基本概念進(jìn)行闡述,接著對(duì)RAFT光流計(jì)算模型的具體實(shí)施步驟以及對(duì)應(yīng)的思路進(jìn)行介紹與分析。
1 光流的基本概念
光流是運(yùn)動(dòng)物體或場(chǎng)景表面像素點(diǎn)在投影平面的二維瞬時(shí)速度,因此圖像序列對(duì)應(yīng)的光流不僅攜帶其中運(yùn)動(dòng)目標(biāo)與場(chǎng)景的運(yùn)動(dòng)信息,更包含了其結(jié)構(gòu)信息。
圖1-1 光流可視化效果展示
圖1-1分別展示了光流計(jì)算技術(shù)在運(yùn)動(dòng)目標(biāo)檢測(cè)中的應(yīng)用,可以看到:精確的光流不僅可以給出連續(xù)圖像幀中每一像素點(diǎn)的運(yùn)動(dòng)信息,還可清晰地分割出運(yùn)動(dòng)目標(biāo)輪廓,其中,通過(guò)不同的顏色區(qū)分運(yùn)動(dòng)方向,顏色的深淺定義運(yùn)動(dòng)矢量大小。
圖1-2光流計(jì)算技術(shù)應(yīng)用
21世紀(jì)以來(lái),隨著計(jì)算機(jī)計(jì)算的不斷提升,光流計(jì)算技術(shù)廣泛的應(yīng)用于各種更高級(jí)的計(jì)算機(jī)視覺(jué)任務(wù)中。例如,圖1-2(a) 在針對(duì)視頻的人體行為識(shí)別的研究中,可利用人體行為的光流特征,增強(qiáng)在時(shí)空域中人體行為特征的表述能力,顯著降低異常值點(diǎn)對(duì)行為識(shí)別產(chǎn)生的不良影響。圖1-2(b) 在運(yùn)動(dòng)目標(biāo)檢測(cè)與目標(biāo)跟蹤的研究中:可根據(jù)光流檢測(cè)運(yùn)動(dòng)目標(biāo)的結(jié)構(gòu)、位移特性,減少運(yùn)動(dòng)目標(biāo)之間的匹配時(shí)間消耗,提升在攝像機(jī)運(yùn)動(dòng)情況下,目標(biāo)檢測(cè)、跟蹤的魯棒性。圖1-2(c) 在機(jī)器人導(dǎo)航避障的研究中,可利用光流針對(duì)圖像區(qū)域的矢量信息,獲得機(jī)器人前方區(qū)域的避障信息,提升機(jī)器人行動(dòng)決策的精度。
2 RAFT光流計(jì)算模型
RAFT光流計(jì)算模型由特征提取模塊、context提取模塊、視覺(jué)相似性(Visual Similarity)計(jì)算模塊以及更新迭代模塊共同組成。下文將分別對(duì)RAFT光流計(jì)算模型中各模塊的計(jì)算流程以及原理進(jìn)行分析介紹。
2.1 特征提取模塊與context提取模塊
特征提取模塊的作用為提取輸入第一幀、第二幀圖像中的特征,其中特征的分辨率為輸入圖像的1/8。Context提取模塊的作用同樣為提取特征,只不過(guò)只提取第一幀圖像的上下文信息特征,分辨率同樣為輸入圖像的1/8。在結(jié)構(gòu)上,特征提取模塊context提取模塊的結(jié)構(gòu)基本類似,區(qū)別有兩點(diǎn):首先模塊中選擇的規(guī)范化層不同,特征提取模塊采用的為instance規(guī)劃化技術(shù),而context提取模塊采用的為batch規(guī)劃化技術(shù)。其次特征提取模塊輸出單一的輸入圖像特征,而context提取模塊輸出兩份輸入的圖像特征。
2.2 視覺(jué)相似性(Visual Similarity)計(jì)算模塊
視覺(jué)相似性計(jì)算模塊的作用和2018cvpr光流領(lǐng)域經(jīng)典論文PWC-Net的思想類似,區(qū)別便是,PWC-Net是在每一層特征金字塔中利用上層金字塔預(yù)測(cè)光流對(duì)當(dāng)前層的第二幀圖像特征向第一幀圖像特征進(jìn)行warp,然后對(duì)warp的第二幀圖像特征與原始第一幀圖像特征進(jìn)行匹配獲得對(duì)應(yīng)的cost volume,PWC-Net中cost volume的尺寸為[batch, d, h, w],例如[2,81,24,80],代表第一幀圖像特征中的每一個(gè)像素點(diǎn),與warp后第二幀圖像中以這個(gè)像素點(diǎn)為中心的9x9鄰域范圍內(nèi)的點(diǎn)做匹配(點(diǎn)乘操作),如上式所示,其中k=4,代表匹配的半徑長(zhǎng)度為4,與分別代表第一幀圖像特征中的像素點(diǎn)與第二幀圖像特征中的像素點(diǎn),總共對(duì)2個(gè)batch進(jìn)行上述操作。
而RAFT中的視覺(jué)相似性計(jì)算模塊的計(jì)算流程是首先對(duì)第一幀圖像特征與第二幀圖像特征匹配獲得一個(gè)[batch, h, w, h, w]的cost volume,代表第一幀圖像中的每一個(gè)像素點(diǎn),都與第二幀圖像特征中所有像素點(diǎn)進(jìn)行匹
配,總共進(jìn)行batch次上述操作。匹配過(guò)程如下式所示,其中與分別為第一幀圖像特征與第二幀圖像特征,i,j,k,l分別為第一幀與第二幀圖像特征的高、寬索引, h為圖像特征的通道維度索引。RAFT在原始圖像分辨率1/8的圖像特征上通過(guò)迭代優(yōu)化光流,光流的初始值設(shè)定為0,也就是說(shuō)不產(chǎn)生移動(dòng),然后通過(guò)該光流索引上述尺寸為[batch, h, w, h, w]的cost volume(方便表示記作CT1),具體來(lái)說(shuō)便是:在第一次迭代中,因?yàn)楣饬鞒跏贾禐?,那么便利用上述CT1索引第二幀圖像中以當(dāng)前像素點(diǎn)為中心的9x9鄰域范圍內(nèi)點(diǎn)的匹配結(jié)果,后續(xù)迭代中,因光流迭代之后不為0,同樣進(jìn)行上述索引,只不過(guò)需要在當(dāng)前點(diǎn)上施加一個(gè)光流的位移,通過(guò)此操作獲得的cost volume記作CT2,尺寸為[batch, d, h, w],d與PWC-Net論文中的參數(shù)一樣,一般為81。通過(guò)上述操作便可使匹配范圍進(jìn)一步擴(kuò)大,進(jìn)而在下文中將要提到的更新迭代模塊中求得殘差光流,用來(lái)補(bǔ)償初始光流。可通過(guò)Pooling操作獲得不同分辨率下的CT2,用來(lái)獲得局部以及整體的特征。
2.3 更新迭代模塊
更新迭代模塊的輸入由四部分組成:兩份context提取模塊輸出,CT2,以及上層迭代過(guò)程輸出的光流。該模塊利用GRU模塊以及卷積操作,計(jì)算出相對(duì)于上次迭代過(guò)程輸出光流的殘差光流,然后與上次迭代過(guò)程輸出光流進(jìn)行相加用作補(bǔ)償。需要注意的是,該模塊中利用卷積操作學(xué)習(xí)上采樣權(quán)值,使當(dāng)前1/8分辨率下的光流上采樣到與輸入圖像同尺寸,具體形式如下圖所示,其中w1-w9為利用卷積操作學(xué)習(xí)到的權(quán)重,也就是說(shuō),上采樣之后的光流結(jié)果中每一像素點(diǎn)的值都與其周圍的9個(gè)像素點(diǎn)有關(guān)。最后,輸出每一次迭代過(guò)程生成的全分辨率光流結(jié)果,用于損失函數(shù)計(jì)算,更新模型中的參數(shù)。
3 RAFT模型中的損失函數(shù)
RAFT模型中總共進(jìn)行12次優(yōu)化迭代,也就是說(shuō)會(huì)產(chǎn)生12個(gè)全分辨率下的光流結(jié)果。迭代次數(shù)越多,光流計(jì)算精度越精確。RAFT模型采用的是監(jiān)督算法,具體步驟可以表示為:通過(guò)求取12次光流迭代過(guò)程中的光流計(jì)算結(jié)果與光流真實(shí)值的L1范數(shù),并且迭代的次數(shù)越多,對(duì)應(yīng)L1范數(shù)結(jié)果的權(quán)值也就越大(說(shuō)明該結(jié)果對(duì)整個(gè)損失函數(shù)的影響越大),如下式所示,其中,N=12。
4 總結(jié)
本文敘述了ECCV最佳論文RAFT的一般計(jì)算步驟,如有不足,請(qǐng)多多指教。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: linux内核 lts长期演进,Linu
- 下一篇: facebook对话链接_如何应用防错原