attention机制_简析Attention机制—优缺点,实现,应用
什么是Attention機(jī)制?
Attention機(jī)制的本質(zhì)來自于人類視覺注意力機(jī)制。人們在看東西的時候一般不會從到頭看到尾全部都看,往往只會根據(jù)需求觀察注意特定的一部分。
簡單來說,就是一種權(quán)重參數(shù)的分配機(jī)制,目標(biāo)是協(xié)助模型捕捉重要信息。具體一點(diǎn)就是,給定一組<key,value>,以及一個目標(biāo)(查詢)向量query,attention機(jī)制就是通過計(jì)算query與每一組key的相似性,得到每個key的權(quán)重系數(shù),再通過對value加權(quán)求和,得到最終attention數(shù)值。
優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
缺點(diǎn):
應(yīng)用領(lǐng)域:
在這主要介紹幾篇論文或經(jīng)典文檔。
自然語言處理:
計(jì)算機(jī)視覺:
推薦系統(tǒng):
Attention常見實(shí)現(xiàn)方法
該方法主要是將Q,K拼接,然后一起通過一個激活函數(shù)為tanh的全連接層,再跟權(quán)重矩陣做乘積,在數(shù)據(jù)量夠大的情況下,該方法一般來說效果都不錯。
2.Dot Product / scaled-dot Product:
該方法適用于query與key維度相同情景,通過q轉(zhuǎn)置后與k點(diǎn)積。在權(quán)重值過大的情況下,可以將數(shù)據(jù)標(biāo)準(zhǔn)化,即scaled-dot Product。
3.Bilinear:
通過一個權(quán)重矩陣直接建立query與key的關(guān)系,權(quán)重矩陣可以隨機(jī)初始化也可以使用預(yù)設(shè)的。
4.cosine
即計(jì)算兩個向量的cosine相似度。
self-attention
該方法即Q,K,V都來自于同一個輸入,其余計(jì)算過程,基本同上常用方法。
Multi-Head Attention
該方法可以理解成attention版本的ensemble,不同head學(xué)習(xí)不同的子空間語義。權(quán)值計(jì)算也同上常用方法。
推薦系統(tǒng)中的attention機(jī)制
現(xiàn)在推薦系統(tǒng)的趨勢基本是朝著海量數(shù)據(jù)+復(fù)雜模型的方向發(fā)展,相信將來會取代人工精細(xì)特征+簡單模型的方式。
這里主要介紹阿里的din模型:
模型的主要思想在于用戶的興趣是無序的,比如在電商場景下,用戶A的歷史行為序列包含游泳用品,牛奶,女裝。而當(dāng)前展示的廣告是女裝,它便只能激活女裝的這個興趣,即在當(dāng)前展示廣告面前,用戶的興趣是多峰的。
基于此,通過target廣告與用戶行為序列key做attention,捕獲當(dāng)前最可能被激活的那個峰。
具體算法實(shí)現(xiàn)便是通過target與行為序列做attention,再將輸出與其他特征拼接之后通過全連接層得到最終輸出。
相似的應(yīng)用場景還有TDM模型,DIEN模型等。
小弟在此拋磚引玉,希望各位看官多多指點(diǎn)
總結(jié)
以上是生活随笔為你收集整理的attention机制_简析Attention机制—优缺点,实现,应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习之RetinaNet
- 下一篇: 对计算机硬盘进行格式化时,在安装操作系统