【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge
論文地址:https://arxiv.org/abs/2105.08826
論文小結
??這比賽的目標是在移動手機上得到實時運行的視頻超分算法,目標在480p(實際上是180?30180*30180?30)分辨率輸入下得到HD分辨率,且有80FPS。訓練數據集為REDS,4倍超分,在OPPO Find x2手機上,865的芯片,Qualcomm Adreno 650 CPU,浮點數網絡(之前的SISR目標是定點數網絡)。
??視頻超分比賽輸入為180?320180*320180?320,目標是4倍上采樣,圖像超分輸入為640?360640*360640?360,目標是3倍上采樣;
??驗證運行時間和限制算子的平臺仍然是AI benchmark和TF Lite。
論文簡介
數據集
??數據集為REDS,一共有300段視頻,240段視頻用于訓練,30段視頻用于驗證,30段視頻用于測試。每段視頻長度為100100100幀,每幀分辨率為1280?7201280*7201280?720,幀率為24FPS。制作數據時,使用雙三次(bicubically)下采樣,下采樣因子為4。
指標
??最后的分數指標計算和SISR比賽一樣。Score=22?PSNRC?runtimeScore = \frac{2^{2*PSNR}}{C*runtime}Score=C?runtime22?PSNR?
參賽情況
??視頻超分比賽有125個注冊參與者,有4個團隊入圍了最終階段。下表為4個團隊的結果,其中Noah_TerminalVision團隊使用的算法有算子與TF Lite的GPU算子不兼容,只能在CPU上進行。
??Diggers是挑戰賽的冠軍,也只有該團隊的解決方案使用了幀間依賴,其他方案使用標準的單幀方法進行上采樣。Diggers使用循環連接(Recurrent Connections)利用幀間依賴,以獲得更好的重構結果。單幀方法只比Diggers團隊差一點點,但都比簡單的雙三次插值要好得多。
??下圖展示了幾個團隊的算法超分的感官效果。
算法介紹
Diggers
??Diggers使用雙向循環網絡,利用前后視頻幀作為額外信息。網絡結構如下圖所示,對于每個輸入幀,先使用兩個特征提取模塊(FEB Module),得到兩個特征圖,分別用于forward(blue)和backward(orange)。Forward特征用于結合前面幀的特征,反饋到后續幀的HR信息,Backward特征則反之。最后結合多幀的信息來獲得當前幀的feature maps。得到的前向特征和反向特征進入一個選擇單元模塊(SEL Block,Selection units Layer)。上采樣采用一個IMDB模塊,兩個卷積和Image Resize層。
??訓練策略為:batchSize為16,訓練31個epochs,初始化學習率為4e?34e^{-3}4e?3,從第7個epoch開始,每2個epoch學習率衰減為0.70.70.7(乘以0.70.70.7),L1L_1L1?作為Loss,Adam作為優化器。然后再用L2L_2L2?作為Loss訓練31個epochs,學習率策略與前一階段31個epochs一樣。
ZTE VIP
??ZTE VIP團隊的算法沒有幀間依賴,其對每幀單獨進行上采樣,這樣能大幅提高推理速度。比賽的標準是輸入tensor為10幀concat到一起,即輸入為B?H?W?(3?10)B*H*W*(3*10)B?H?W?(3?10),其中B=1B=1B=1。ZTE VIP團隊先將輸入reshape成(B?10)?H?W?3(B * 10)*H*W*3(B?10)?H?W?3,即10?H?W?310*H*W*310?H?W?3,該做法把輸入的連續幀認為是單獨的幀。然后分別進入幾個殘差塊,和depth-to-space層中獲得最后的上采樣圖像。殘差塊的數目和大小由NAS搜出來的,組成條件有Loss和FLOPs。模型最后有5個殘差塊,每個包含2個3?33*33?3Conv,Channel數目為8。
??訓練策略為:L1L_1L1?作為Loss,batchSize為4,訓練100個epochs,Adam作為優化器,初始化學習率為2e?42e^{-4}2e?4,學習率縮放因子為0.50.50.5,每400個epoch變一次學習率。具體細節可在論文上查看。https://ieeexplore.ieee.org/document/9522982
Rainbow
??Rainbow團隊也提出一個純CNN的方案,生成每幀的高分辨率圖像。其使用3個IMDB-s模塊,接著depth-to-space上采樣。對每個視頻幀分別如此進行,加上一個全局的Skip Connection用于改善視覺效果。
??訓練策略為:L1L_1L1?作為Loss,Adam作為優化器,初始學習率為2e?42e^{-4}2e?4,每50k50k50k次迭代學習率減半,batchSize為8;
Noah_TereminalVision
??Noah_TereminalVision提出一個TinyVSRNet網絡,其包含3個殘差塊,每個塊有2個卷積,卷積通道數為16,然后再接著一個depth-to-space和一個全局skip connection(在上采樣之后)。
??訓練策略為:訓練時使用重參數結構,重參數組件為非對稱卷積3?33*33?3、1?31*31?3和3?13*13?1,在訓練時分開,在測試時合為同一個。重參數的訓練方式可以給TinyVSRNet增加0.05dB0.05dB0.05dB的PSNR。使用L1L_1L1?作為Loss,使用Adam優化器訓練111百萬次迭代,使用循環損失策略,每200K200K200K次迭代從5e?45e^{-4}5e?4降到1e?61e^{-6}1e?6。
舉辦方和參賽者
舉辦方為:
- 蘇黎世聯邦理工學院
- OPPO
- AI Witchlabs, Switzerland(蘇黎世一家企業)
- 首爾大學
參賽方:
- Diggers。電子科技大學
- ZTE VIP。中興
- Rainbow。西安電子科技大學,電子工程學院
- Noah_TerminalVision。華為
總結
以上是生活随笔為你收集整理的【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想G480—win8.1安装Cento
- 下一篇: istio sidecar流量接管_Is