當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文献阅读20期：Transformer Transforms Salient Object Detection and Camouflaged Object Detection

發布時間：2023/12/20 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了文献阅读20期：Transformer Transforms Salient Object Detection and Camouflaged Object Detection 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[ 文獻閱讀 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1]

表現SOTA！性能優于SCWS、JLDCF等網絡，源自機器翻譯的Transformer網絡特別擅長在長序列中對遠程依存關系進行建模。大量實驗結果表明，Transformer網絡可以轉換顯著性目標檢測和偽裝對象檢測，從而為每個相關任務提供了新的基準。

1.Transformer Network

1.1.Transformer Network 總覽

多頭注意力機制：典型思想是自我注意，它捕捉輸入序列中元素之間的長期依賴關系。自我注意機制旨在估計一個目標與給定序列中其他物體的相關性，并對序列中所有物體之間的相互作用進行建模。
假定有序列 $X∈Rn×d\mathbf{X} \in \mathbb{R}^{n \times d}$ ，n為序列長度，d為embedding維度。則輸入的向量首先會被轉換為3個不同的向量：Query vector $Q\mathbf{Q}$ ，Key vector $K\mathbf{K}$ ，Value vector $V\mathbf{V}$ ，這三個向量都有相同的維度d，并且相對應有三種可學習權重矩陣： $WQ∈Rn×dq,WK∈Rn×dk\mathbf{W}^{Q} \in \mathbb{R}^{n \times d_{q}}, \mathbf{W}^{K} \in \mathbb{R}^{n \times d_{k}}$ and $WV∈Rn×dv\mathbf{W}^{V} \in \mathbb{R}^{n \times d_{v}}$
基于以上，一個輸入序列X可以轉化為以下三個矩陣：
$Q=XWQ,K=XWK,V=XWV(1)\mathbf{Q}=\mathbf{X} \mathbf{W}^{Q}, \mathbf{K}=\mathbf{X} \mathbf{W}^{K}, \mathbf{V}=\mathbf{X} \mathbf{W}^{V}\tag{1}$
基于上述三個權值矩陣，計算所有隊列的點積。然后使用softmax算子將結果歸一化為注意分數。最后，將每個值向量乘以注意力得分之和。這樣，具有較大注意分數的向量從以下層接收額外的關注。標度點積自我注意的定義是：
$Z=softmax?(QKTd)V(2)\mathbf{Z}=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{T}}{\sqrtze8trgl8bvbq}\right) \mathbf{V}\tag{2}$
自我注意層的輸出與輸入順序無關。為了解決輸入向量位置信息缺失的問題，在輸入向量上增加了一個附加的位置編碼。有兩種可選的編碼形式，包括可學習參數和正弦/余弦函數編碼。形式如下：
$PE(pos,2i)=sin?(pos100002id)PE(pos?,2i+1)=cos?(pos100002id)(3)\begin{aligned} \mathbf{P E}(p o s, 2 i) &=\sin \left(\frac{p o s}{10000^{\frac{2 i}ze8trgl8bvbq}}\right) \\ \mathbf{P E}(\operatorname{pos}, 2 i+1) &=\cos \left(\frac{p o s}{10000^{\frac{2 i}ze8trgl8bvbq}}\right) \end{aligned}\tag{3}$
多頭注意力機制后來是對自注意力機制的一個擴充，如下圖：
Transformer 網絡一般是用來做NLP自然語言處理的，但本文把它用來做目標檢測。一般來說Transformer Network長下圖這樣：
如果將 $\times W \times 3$ 的圖片打平成一維向量，這個向量的大小即 $3 H W$ ，這就會導致很大的計算復雜度，為了讓計算復雜度維持在一個可以接受的水平，本文首先用ResNet-50將樣本下采樣為一個大小為 $H16×W16×3\frac{H}{16} \times \frac{W}{16} \times 3$ 的高級別特征映射，這樣之后向量大小就變為 $HW256\frac{H W}{256}$ ，讓計算復雜度維持在一個可以接受的水平。

1.2.顯著目標檢測

視覺圖像上的顯著目標檢測實際上是一種需要根據上下文進行推斷的任務。而且被檢測的目標應當和其背景很好地區分開來。如下圖所示：
本文將訓練集定義為： $D=\{x, y\}_{i=1}^{N}$ ，其中x是RGB圖片，y是ground truth或是基于弱監督的弱map或scribble

1.2.1.全監督模型

對于全監督模型，采用了加權結構感知損失，即加權01交叉熵損失和加權IOU損失之和，如下所示：
$Lfull?(c,y)=ω?Lce(c,y)+Liou(c,y)(4)\mathcal{L}_{\text {full }}(c, y)=\omega * \mathcal{L}_{c e}(c, y)+\mathcal{L}_{i o u}(c, y)\tag{4}$
其中 $ω\omega$ 是邊緣感知權重： $ω=1+5?∣(avg??pool?(y)?y)∣,Lce\omega=1+5 *\left|\left(\operatorname{avg}_{-} \operatorname{pool}(y)-y\right)\right|, \mathcal{L}_{c e}$ ， $Lce\mathcal{L}_{c e}$ 是01交叉熵損失， $Liou\mathcal{L}_{i o u}$ 定義如下：
$Liou=1?ω?inter?+1ω?union??ω?inter?+1(5)\mathcal{L}_{i o u}=1-\frac{\omega * \text { inter }+1}{\omega * \text { union }-\omega * \text { inter }+1}\tag{5}$
其中inter $= c ? y$ , and union $= c + y$ 。

1.2.2.弱監督模型

弱監督學習管道的最終損失函數定義為：
$Lweak?=LPrediction#1?+LPrediction#?2+λLce(e,?Prediction#1?),\begin{array}{r} \mathcal{L}_{\text {weak }}=\mathcal{L}_{\text {Prediction\#1 }}+\mathcal{L}_{\text {Prediction\# } 2} \\ +\lambda \mathcal{L}_{c e}(e, \partial \text { Prediction\#1 }), \end{array}$
其中， $λ=1\lambda=1$ ，且有：
$LPrediction#1?=Lpce+λ1?Lsm+λ2?Lgcrf+λ3?Lss\mathcal{L}_{\text {Prediction\#1 }}=\mathcal{L}_{p c e}+\lambda_{1} * \mathcal{L}_{s m}+\lambda_{2} * \mathcal{L}_{g c r f}+\lambda_{3} * \mathcal{L}_{s s}$
自監督損失被定義為結構相似性指數測度和L1損失的加權和，如下所示：
$Lss=α?SSIM?(ch,c)+(1?α)?Li?(ch,c)(8)\mathcal{L}_{s s}=\alpha * \operatorname{SSIM}\left(c_{h}, c\right)+(1-\alpha) * \operatorname{Li}\left(c_{h}, c\right)\tag{8}$

2.論文實驗

參考文獻

[1] Mao Y, Zhang J, Wan Z, et al. Transformer transforms salient object detection and camouflaged object detection[J]. arXiv preprint arXiv:2104.10127, 2021.

總結

以上是生活随笔為你收集整理的文献阅读20期：Transformer Transforms Salient Object Detection and Camouflaged Object Detection的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。