论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
生活随笔
收集整理的這篇文章主要介紹了
论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文章目錄
- 0. 前言
- 1. 要解決什么問題
- 2. 用了什么方法
- 3. 效果如何
- 4. 還存在什么問題&有什么可以借鑒
0. 前言
- 相關(guān)資料:
- cvpr頁面
- github
- 論文解讀(官方解讀)
- 論文基本信息
- 領(lǐng)域:行為識別(雖然標(biāo)題里有tube,但其實做的是行為識別……)
- 作者單位:中國科技大學(xué)&微軟亞洲研究院
- 發(fā)表時間:CVPR 2018
1. 要解決什么問題
- 3D卷積計算量太大,影響行為識別的效果。
- 當(dāng)時的3D模型還是C3D,沒花頭。
2. 用了什么方法
- 提出了 Mixed Convolutional Tube (MiCT) 結(jié)構(gòu),降低計算量、提高性能。
- 說白了就是用一些2D+3D的結(jié)構(gòu)來替換之前C3D中的3D結(jié)構(gòu)。
- 主要靈感來源于:視頻數(shù)據(jù)中,相比 spatial 緯度,temporal 緯度的信息更多,或者說,相鄰幀中空間維度的信息隨時間變化較小。
- 3D/2D卷積串聯(lián)結(jié)構(gòu)
- 先3D,再對temporal緯度每一個分別進行2D。
- 3D/2D cross-domain residual connection
- 看樣子應(yīng)該是3D和2D的融合
- 網(wǎng)絡(luò)總體結(jié)構(gòu),即 MiCT-Net 結(jié)構(gòu)
3. 效果如何
- 結(jié)果其實不是很想放,只有在UCF101和HMDB51上的結(jié)果,沒有Kinetics400的
4. 還存在什么問題&有什么可以借鑒
-
數(shù)據(jù)融合的這幾個結(jié)構(gòu)也許有機會可以嘗試一下。
-
效果在現(xiàn)在看來應(yīng)該不太行。
-
表格里寫了300+fps,但好像沒有硬件型號?。。。
總結(jié)
以上是生活随笔為你收集整理的论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Moebius for SQL Serv
- 下一篇: NLP之文本分类方法之基础知识