CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记
筆記
曠視研究院的研究員提出了如下模型,用于圖像的多標(biāo)簽分類.
該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網(wǎng)絡(luò).
網(wǎng)絡(luò)主要由兩部分構(gòu)成
動機
GCN層
每個標(biāo)簽可以看做是一個特征向量.
在第一層的時候,標(biāo)簽的特征向量是ddd維度的,剛好是一個詞嵌入向量.
在第二層的時候,標(biāo)簽的特征向量是d′d'd′維度的,是經(jīng)過了一個轉(zhuǎn)換矩陣W2W^2W2的映射.
在第三層的時候,標(biāo)簽的特征向量是DDD維度的,也是經(jīng)過了一個轉(zhuǎn)換矩陣W3W^3W3的映射,映射完之后,每個標(biāo)簽的特征向量維度剛好和ResNet101抽取到的特征維度相同了,因此可以作為該標(biāo)簽的分類器了.
這對應(yīng)第2個動機.
至此還未用到標(biāo)簽間的拓?fù)鋱D結(jié)構(gòu),也就沒有用到標(biāo)簽間的共現(xiàn)關(guān)系,因此他們設(shè)計了一個共現(xiàn)矩陣AAA,用于引導(dǎo)信息在標(biāo)簽間的傳遞.
A∈Rn?nA \in R^{n*n}A∈Rn?n,其中nnn是標(biāo)簽的數(shù)量.
矩陣是一個先驗矩陣,不需要被學(xué)習(xí).
這就對應(yīng)了第1個動機
因此得到了GCN變換公式:
Hl∈Rn?d,Wl∈Rd?d′,A∈Rn?nH^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}Hl∈Rn?d,Wl∈Rd?d′,A∈Rn?n
Hl+1=h(AHlWl)H^{l+1}=h(AH^{l}W^{l})Hl+1=h(AHlWl)
AAA的設(shè)計
如圖所示,一個很樸素的想法,就是計算一對標(biāo)簽的條件概率作為他們的相關(guān)系數(shù).
這樣有兩個壞處
作如下改進: 將矩陣進行二值化,設(shè)置一個閾值τ∈[0,1]\tau \in [0,1]τ∈[0,1]
Aij=[Pij≥τ]A_{ij}=[P_{ij} \ge \tau]Aij?=[Pij?≥τ]
二值化之后解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.
因此他們提出了二次加權(quán)的方法:
ppp是一個預(yù)設(shè)的超參數(shù).
當(dāng)p→1p \rightarrow 1p→1的時候,節(jié)點自身的特征往往不會被考慮.
當(dāng)p→0p \rightarrow 0p→0的時候,節(jié)點相鄰點的特征往往不會被考慮.
細(xì)節(jié)
當(dāng)一個標(biāo)簽包含多個單詞的時候,將所有單詞的embedding取平均.
實驗結(jié)果
可視化
通過對分類器的可視化,我們可以發(fā)現(xiàn),確實使用GCN可以學(xué)習(xí)到吧標(biāo)間之間的內(nèi)在關(guān)聯(lián)性.
總結(jié)
以上是生活随笔為你收集整理的CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Simple-Faster-RCNN源码
- 下一篇: bilibili怎么注销