深度残差网络_注意力机制+软阈值化=深度残差收缩网络
顧名思義,深度殘差收縮網(wǎng)絡(luò)是由“殘差網(wǎng)絡(luò)”和“收縮”兩部分所組成的,是在“殘差網(wǎng)絡(luò)”基礎(chǔ)上的一種改進(jìn)算法。
其中,殘差網(wǎng)絡(luò)在2016年斬獲了ImageNet圖像識(shí)別競(jìng)賽的冠軍,目前已經(jīng)成為了深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)網(wǎng)絡(luò);收縮就是軟閾值化,是許多信號(hào)降噪方法的核心步驟。
在深度殘差收縮網(wǎng)絡(luò)中,軟閾值化所需要的閾值,本質(zhì)上是在注意力機(jī)制下設(shè)置的。
在本文中,我們首先對(duì)殘差網(wǎng)絡(luò)、軟閾值化和注意力機(jī)制的基礎(chǔ)知識(shí)進(jìn)行了簡(jiǎn)要的回顧,然后對(duì)深度殘差收縮網(wǎng)絡(luò)的動(dòng)機(jī)、算法和應(yīng)用展開(kāi)解讀。(轉(zhuǎn)載的)
1. 基礎(chǔ)回顧
1.1 殘差網(wǎng)絡(luò)
從本質(zhì)上講,殘差網(wǎng)絡(luò)(又稱深度殘差網(wǎng)絡(luò)、深度殘差學(xué)習(xí))是一種卷積神經(jīng)網(wǎng)絡(luò)。相較于普通的卷積神經(jīng)網(wǎng)絡(luò),殘差網(wǎng)絡(luò)采用了跨層恒等連接,以減輕卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。殘差網(wǎng)絡(luò)的一種基本模塊如圖1所示。
圖1 殘差網(wǎng)絡(luò)的一種基本模塊1.2 軟閾值化
軟閾值化是許多信號(hào)降噪方法的核心步驟。它的用處是將絕對(duì)值低于某個(gè)閾值的特征置為零,將其他的特征也朝著零進(jìn)行調(diào)整,也就是收縮。在這里,閾值是一個(gè)需要預(yù)先設(shè)置的參數(shù),其取值大小對(duì)于降噪的結(jié)果有著直接的影響。軟閾值化的輸入與輸出之間的關(guān)系如圖2所示。
圖2 軟閾值化從圖2可以看出,軟閾值化是一種非線性變換,有著與ReLU激活函數(shù)非常相似的性質(zhì):梯度要么是0,要么是1。因此,軟閾值化也能夠作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù)。事實(shí)上,一些神經(jīng)網(wǎng)絡(luò)已經(jīng)將軟閾值化作為激活函數(shù)進(jìn)行了使用。
1.3 注意力機(jī)制
注意力機(jī)制就是將注意力集中于局部關(guān)鍵信息的機(jī)制,可以分為兩步:第一,通過(guò)掃描全局信息,發(fā)現(xiàn)局部有用信息;第二,增強(qiáng)有用信息并抑制冗余信息。
Squeeze-and-Excitation Network是一種非常經(jīng)典的注意力機(jī)制下的深度學(xué)習(xí)方法。它可以通過(guò)一個(gè)小型的子網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)得到一組權(quán)重,對(duì)特征圖的各個(gè)通道進(jìn)行加權(quán)。其含義在于,某些特征通道是比較重要的,而另一些特征通道是信息冗余的;那么,我們就可以通過(guò)這種方式增強(qiáng)有用特征通道、削弱冗余特征通道。Squeeze-and-Excitation Network的一種基本模塊如下圖所示。
圖3 Squeeze-and-Excitation Network的一種基本模塊值得指出的是,通過(guò)這種方式,每個(gè)樣本都可以有自己獨(dú)特的一組權(quán)重,可以根據(jù)樣本自身的特點(diǎn),進(jìn)行獨(dú)特的特征通道加權(quán)調(diào)整。例如,樣本A的第一特征通道是重要的,第二特征通道是不重要的;而樣本B的第一特征通道是不重要的,第二特征通道是重要的;通過(guò)這種方式,樣本A可以有自己的一組權(quán)重,以加強(qiáng)第一特征通道,削弱第二特征通道;同樣地,樣本B可以有自己的一組權(quán)重,以削弱第一特征通道,加強(qiáng)第二特征通道。
2. 深度殘差收縮網(wǎng)絡(luò)理論
2.1 動(dòng)機(jī)
首先,現(xiàn)實(shí)世界中的數(shù)據(jù),或多或少都含有一些冗余信息。那么我們就可以嘗試將軟閾值化嵌入殘差網(wǎng)絡(luò)中,以進(jìn)行冗余信息的消除。
其次,各個(gè)樣本中冗余信息含量經(jīng)常是不同的。那么我們就可以借助注意力機(jī)制,根據(jù)各個(gè)樣本的情況,自適應(yīng)地給各個(gè)樣本設(shè)置不同的閾值。
2.2 算法
與殘差網(wǎng)絡(luò)和Squeeze-and-Excitation Network相似,深度殘差收縮網(wǎng)絡(luò)也是由許多基本模塊堆疊而成的。每個(gè)基本模塊都有一個(gè)子網(wǎng)絡(luò),用于自動(dòng)學(xué)習(xí)得到一組閾值,用于特征圖的軟閾值化。值得指出的是,通過(guò)這種方式,每個(gè)樣本都有著自己獨(dú)特的一組閾值。深度殘差收縮網(wǎng)絡(luò)的一種基本模塊如下圖所示。
圖4 深度殘差收縮網(wǎng)絡(luò)的一種基本模塊深度殘差收縮網(wǎng)絡(luò)的整體結(jié)構(gòu)如下圖所示,是由輸入層、許多基本模塊以及最后的全連接輸出層等組成的。
圖5 深度殘差收縮網(wǎng)絡(luò)的整體結(jié)構(gòu)2.3 應(yīng)用
在論文中,深度殘差收縮網(wǎng)絡(luò)是應(yīng)用于基于振動(dòng)信號(hào)的旋轉(zhuǎn)機(jī)械故障診斷。但是從原理上來(lái)講,深度殘差收縮網(wǎng)絡(luò)面向的是數(shù)據(jù)集含有冗余信息的情況,而冗余信息是無(wú)處不在的。例如,在圖像識(shí)別的時(shí)候,圖像中總會(huì)包含一些與標(biāo)簽無(wú)關(guān)的區(qū)域;在語(yǔ)音識(shí)別的時(shí)候,音頻中經(jīng)常會(huì)含有各種形式的噪聲。因此,深度殘差收縮網(wǎng)絡(luò),或者說(shuō)這種“注意力機(jī)制”+“軟閾值化的思路,有著較為廣泛的研究?jī)r(jià)值和應(yīng)用前景。
參考文獻(xiàn)
M. Zhao, S, Zhong, X. Fu, et al. Deep residual shrinkage networks for fault diagnosis. IEEE Transactions on Industrial Informatics, 2019, DOI: 10.1109/TII.2019.2943898
https://ieeexplore.ieee.org/document/8850096/?ieeexplore.ieee.org源代碼
zhao62/Deep-Residual-Shrinkage-Networks?github.com總結(jié)
以上是生活随笔為你收集整理的深度残差网络_注意力机制+软阈值化=深度残差收缩网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python连接数据库mysql错误10
- 下一篇: easyui datagrid onch