CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions
動機
1、現實世界的運動是非常復雜的,總是在空間和時間上變化。在降水預報中,要準確預測隨時空變化的運動,如雷達回波的變形、積累或消散,具有極大的挑戰性。
2、最新的已知的視頻預測模型,如PredRNN、MIM和Conv-TT-LSTM,主要關注于捕捉隨時間的變化簡單的狀態轉換。它們忽略了運動中復雜的變化,所以在高度變化的情況下不能準確地預測。
3、基于光流的方法使用局部不變狀態轉換來捕捉短期的時間依賴性,但缺乏對長期運動趨勢的表征。當建模不斷變化的運動時,這些方法的效果可能會嚴重退化。
4、本文發現,物理世界的運動可以自然地分解為瞬態變化和運動趨勢。考慮到運動的分解,應該捕捉運動的瞬態變化和運動趨勢,以便更好地進行時空變運動預測。
瞬態變化可以看成是各局部區域瞬時的變形、耗散、速度變化等變化。例如,當一個人跑步時,身體的不同部位會隨著時間發生各種短暫的運動變化,例如左右腿交替向前走。而且,自然的時空過程,特別是物理運動也遵循著這一規律。視頻的運動趨勢可以看成是運動遵循視頻序列中物理世界背后的特征,例如物體的慣性,雷達回波的氣象學,或其他物理定律。
方法
提出了一種新的MotionRNN框架。為了能夠對時空變化的運動進行更有表現力的建模,MotionRNN設計了MotionGRU單元,用于高維隱藏狀態的轉換,該單元分別被專門設計用來捕捉瞬態變化和運動趨勢。受ResNet中殘差shortcuts的啟發,在提出的框架內跨層次改進了運動Highway,以防止捕獲的運動消失,并為MotionRNN提供有用的上下文時空信息。MotionRNN是靈活的,可以很容易地適應現有的預測模型。
MotionRNN:通常,基于RNN的時空預測模型采用堆疊塊的形式。在此框架中,隱狀態在預測塊之間的傳輸由內門控制。然而,當涉及到時空變化的運動時,門控信息流將被不斷地對運動的瞬態變化做出的快速反應所淹沒。此外,還缺乏運動趨勢建模。為了應對時空變化運動建模的挑戰,MotionRNN框架在不改變原始狀態轉換流的情況下,將堆疊層之間的MotionGRU單元作為操作符納入。MotionGRU可以捕捉運動,并根據學習到的運動將狀態轉換到隱藏狀態。然而,當過渡特征穿過多層時,運動會模糊甚至消失。因此,MotionRNN引入了運動Highway,為運動上下文信息提供了另一種捷徑。通過輸出門的復用,將預測塊的輸出與之前的隱含狀態進行補償。這種Highway連接為隱藏狀態提供了額外的細節,并平衡了不變部分和可變運動部分。MotionRNN框架將MotionGRU插入到原始RNN塊的各層之間。
MotionGRU:對于時空變化的運動建模,提出了MotionGRU單元,通過對運動變化建模來進行基于運動的狀態轉換。在視頻預測中,運動可以表示為對應于RNN中隱藏狀態轉換的像素位移。使用MotionGRU來學習相鄰狀態之間的像素偏移量。學習到的像素偏移量由運動濾波器表示。考慮到真實世界的運動是由瞬態變化和運動趨勢組成的,在MotionGRU中專門設計了兩個模塊,分別對這兩個模塊進行建模。如下所示:
實驗細節
主干模型。為了驗證MotionRNN的通用性,使用多個預測模型作為主干模型,包括ConvLSTM、PredRNN、MIM和E3D-LSTM。在所有的基準測試中,基于這些模型的MotionRNN有四個堆疊的塊,包含64個通道隱藏狀態。對于E3D-LSTM,將MotionGRU內部的編碼器和解碼器替換為3D卷積,將3D feature map降采樣為2D,其他操作保持不變。
訓練過程。使用L1+L2 loss進行訓練,以同時增強生成幀的銳度和平滑度,使用初始學習速率為0.0003的ADAM優化器。動量因子α設置為0.5。為了提高內存效率,MotionGRU的學習過濾器大小被設置為3×3。批處理的大小設置為8,訓練過程在100,000次迭代后停止。所有實驗都在PyTorch中實現,在NVIDIA TITAN-V GPUs上進行。
測試基準。在以下三個具有挑戰性的基準上廣泛評估我們提出的MotionRNN:
評價指標。對于人類運動,使用框架結構相似度指數測度(SSIM),均方誤差(MSE),平均絕對誤差(MAE)來評價我們的模型。除了這些常見的度量標準,還使用Fr′echet視頻距離(FVD),這是人類對生成視頻的定性判斷的度量標準。FVD既可以測量視頻內容的時間一致性,也可以測量每幀視頻的質量。對于降水臨近預報,預測過去5次觀測的未來10個雷達回波幀,包括未來兩小時的天氣情況。使用梯度差分損失(GDL)來測量預測幀的銳度。GDL越低,真實銳度相似度越高。對于雷達回波強度,將dBZ中的像素值進行轉換,將Critical Success Index(CSI)分別在閾值為30dbz、40dbz、50dbz進行比較。CSI定義為CSI = Hits+Misses+ FalseAlarms,其中Hits對應Hits true positive,Misses對應false positive,false alarms對應false negative。CSI越高,預測效果越好。與MSE相比,CSI度量方法對總是伴隨著高變化的運動的高強度回波特別敏感。對于變化的移動數字,根據之前的10幀預測未來的10幀。使用MSE、SSIM、GDL和峰值信噪比(PSNR)作為評價指標。
實驗結果表明,Motion Highway可以有效地避免運動模糊,并將物體限制在正確的位置。MotionRNN在上述的三個基準上都取得了最先進的性能。
結論
與以前的預測學習方法不同,本文方法側重于對運動內的變化進行建模,它可以根據時空信息學習顯式的瞬態變化,并從之前的積累中以統一的方式記住運動趨勢。
MotionRNN不會改變原始預測模型中的狀態轉換流。因此,MotionRNN具有很高的靈活性,可以適應多種預測框架,如ConvLSTM、PredRNN、MIM、E3D-LSTM以及其他基于RNN的預測模型。在現有預測模型的基礎上,可以顯著地增強時空變運動建模。
通過MotionGRU和Motion Highway,本文提出的MotionRNN框架可以應用于各種運動變化的場景,無縫補償現有的模型。
總結
以上是生活随笔為你收集整理的CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Debezium同步之DB2数据到Kaf
- 下一篇: 前端基础之CSS盒子模型