當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge

發布時間：2023/12/31 ChatGpt 32 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文地址：https://arxiv.org/abs/2105.08826

論文小結

??這比賽的目標是在移動手機上得到實時運行的視頻超分算法，目標在480p（實際上是 $180 ? 30$ ）分辨率輸入下得到HD分辨率，且有80FPS。訓練數據集為REDS，4倍超分，在OPPO Find x2手機上，865的芯片，Qualcomm Adreno 650 CPU，浮點數網絡（之前的SISR目標是定點數網絡）。
??視頻超分比賽輸入為 $180 ? 320$ ，目標是4倍上采樣，圖像超分輸入為 $640 ? 360$ ，目標是3倍上采樣；

??驗證運行時間和限制算子的平臺仍然是AI benchmark和TF Lite。

論文簡介

數據集

??數據集為REDS，一共有300段視頻，240段視頻用于訓練，30段視頻用于驗證，30段視頻用于測試。每段視頻長度為 $100$ 幀，每幀分辨率為 $1280 ? 720$ ，幀率為24FPS。制作數據時，使用雙三次（bicubically）下采樣，下采樣因子為4。

指標

??最后的分數指標計算和SISR比賽一樣。 $\frac{2^{2*PSNR}}{C*runtime}$

參賽情況

??視頻超分比賽有125個注冊參與者，有4個團隊入圍了最終階段。下表為4個團隊的結果，其中Noah_TerminalVision團隊使用的算法有算子與TF Lite的GPU算子不兼容，只能在CPU上進行。

??Diggers是挑戰賽的冠軍，也只有該團隊的解決方案使用了幀間依賴，其他方案使用標準的單幀方法進行上采樣。Diggers使用循環連接（Recurrent Connections）利用幀間依賴，以獲得更好的重構結果。單幀方法只比Diggers團隊差一點點，但都比簡單的雙三次插值要好得多。
??下圖展示了幾個團隊的算法超分的感官效果。

算法介紹

Diggers

??Diggers使用雙向循環網絡，利用前后視頻幀作為額外信息。網絡結構如下圖所示，對于每個輸入幀，先使用兩個特征提取模塊（FEB Module），得到兩個特征圖，分別用于forward（blue）和backward（orange）。Forward特征用于結合前面幀的特征，反饋到后續幀的HR信息，Backward特征則反之。最后結合多幀的信息來獲得當前幀的feature maps。得到的前向特征和反向特征進入一個選擇單元模塊（SEL Block，Selection units Layer）。上采樣采用一個IMDB模塊，兩個卷積和Image Resize層。
??訓練策略為：batchSize為16，訓練31個epochs，初始化學習率為 $4e^{-3}$ ，從第7個epoch開始，每2個epoch學習率衰減為 $0.7$ (乘以 $0.7$ )， $L_1$ 作為Loss，Adam作為優化器。然后再用 $L_2$ 作為Loss訓練31個epochs，學習率策略與前一階段31個epochs一樣。

ZTE VIP

??ZTE VIP團隊的算法沒有幀間依賴，其對每幀單獨進行上采樣，這樣能大幅提高推理速度。比賽的標準是輸入tensor為10幀concat到一起，即輸入為 $B ? H ? W ? (3 ? 10)$ ，其中 $B = 1$ 。ZTE VIP團隊先將輸入reshape成 $(B ? 10) ? H ? W ? 3$ ，即 $10 ? H ? W ? 3$ ，該做法把輸入的連續幀認為是單獨的幀。然后分別進入幾個殘差塊，和depth-to-space層中獲得最后的上采樣圖像。殘差塊的數目和大小由NAS搜出來的，組成條件有Loss和FLOPs。模型最后有5個殘差塊，每個包含2個 $3 ? 3$ Conv，Channel數目為8。
??訓練策略為： $L_1$ 作為Loss，batchSize為4，訓練100個epochs，Adam作為優化器，初始化學習率為 $2e^{-4}$ ，學習率縮放因子為 $0.5$ ，每400個epoch變一次學習率。具體細節可在論文上查看。https://ieeexplore.ieee.org/document/9522982

Rainbow

??Rainbow團隊也提出一個純CNN的方案，生成每幀的高分辨率圖像。其使用3個IMDB-s模塊，接著depth-to-space上采樣。對每個視頻幀分別如此進行，加上一個全局的Skip Connection用于改善視覺效果。
??訓練策略為： $L_1$ 作為Loss，Adam作為優化器，初始學習率為 $2e^{-4}$ ，每 $50 k$ 次迭代學習率減半，batchSize為8；

Noah_TereminalVision

??Noah_TereminalVision提出一個TinyVSRNet網絡，其包含3個殘差塊，每個塊有2個卷積，卷積通道數為16，然后再接著一個depth-to-space和一個全局skip connection（在上采樣之后）。
??訓練策略為：訓練時使用重參數結構，重參數組件為非對稱卷積 $3 ? 3$ 、 $1 ? 3$ 和 $3 ? 1$ ，在訓練時分開，在測試時合為同一個。重參數的訓練方式可以給TinyVSRNet增加 $0.05 d B$ 的PSNR。使用 $L_1$ 作為Loss，使用Adam優化器訓練 $1$ 百萬次迭代，使用循環損失策略，每 $200 K$ 次迭代從 $5e^{-4}$ 降到 $1e^{-6}$ 。

舉辦方和參賽者

舉辦方為：

蘇黎世聯邦理工學院
OPPO
AI Witchlabs, Switzerland（蘇黎世一家企業）
首爾大學

參賽方：

Diggers。電子科技大學
ZTE VIP。中興
Rainbow。西安電子科技大學，電子工程學院
Noah_TerminalVision。華為

總結

以上是生活随笔為你收集整理的【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：联想G480—win8.1安装Cento
下一篇： istio sidecar流量接管_Is