CNN+RNN
文章目錄
- 相同點
- 不同點
- 組合意義
- 組合方式
- 圖片標注
- 基本思路
- 模型設(shè)計-數(shù)據(jù)準備
- 視頻行為識別
- 視頻行為識別
- 圖片問答
相同點
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的擴展
前向計算產(chǎn)生結(jié)果,反向計算模型更新
每層神經(jīng)網(wǎng)絡(luò)橫向可以多個神經(jīng)元共存,縱向可以多層神經(jīng)網(wǎng)絡(luò)鏈接
不同點
CNN空間擴展,神經(jīng)元與特征卷積,RNN時間擴展,神經(jīng)元與多個時間輸出計算
RNN可用于描述時間上的連續(xù)狀態(tài)輸出,具有記憶功能,CNN靜態(tài)輸出
CNN100+深度 RNN深度有限
組合意義
文結(jié)合,真實的場景對話
組合方式
類回歸 DNN
圖片標注
問題描述
? 擁有大量圖片及標注信息,能否通過學(xué)習(xí)
建立一個能夠自動圖片標注的模型
基本思路
? 目標是產(chǎn)生標注的語句,是一個語句生成
的任務(wù),LSTM?
? 描述的對象大量圖像信息,圖像信息表達,
CNN?
? CNN網(wǎng)絡(luò)中全連接層特征描述圖片,特
征與LSTM輸入結(jié)合?
全連接層特征用來描述原圖片
LSTM輸入:word+圖片特征;輸出下一word
模型設(shè)計-數(shù)據(jù)準備
第n+1單詞向量
視頻行為識別
1. CNN 特征提取
2. LSTM融合
3. Linear regr+Softmax分類
4. 1. 并不是所有的視頻圖像包含確定分類信息
5. RNN用于確定哪些frame是有用的
6. 對有用的圖像特征融合
視頻行為識別
RNN用于,目標檢測
似)
? 競賽/應(yīng)用中,為了產(chǎn)生最好結(jié)果,多采用
多模型ensemble形式
圖片問答
方法流程
依舊按照語言問答流程解決
圖片特征同語言
特征融合
訓(xùn)練數(shù)據(jù):問題+圖片-答案
2. 模型設(shè)計-純文字問答系統(tǒng)
特征生成
(word embedding)
總結(jié)
- 上一篇: linux开发板作为蓝牙音箱,USB 蓝
- 下一篇: 生成step文件_利用opencv给彦女