Attention模型:我的注意力跟你们人类不一样
星標/置頂小屋,帶你解鎖
最萌最前沿的NLP、搜索與推薦技術
文 | 小軼
背景
截至今日,Badanau Attention的原文citation已達1.34w之多。2020年幾乎所有主流NLP任務都需要借助attetion來實現(xiàn)。在深度學習全民煉丹的時代,attention是為數(shù)不多具有較強可解釋性的機制。
在attention提出后的最初幾年,大家都因其效果顯著便不假思索地用于了自己的任務;許多paper也理所應當?shù)卦趯嶒灢糠仲N上各式各樣的attention熱圖,用于解釋模型的內部運作方式(例如下圖)。
能夠解釋模型的工作原理,即可以從模型的中間結果,分析出其最終結果產生原因。
一種更高層次的要求是:模型具有類似于人的工作的“思維”過程。第1種只要求模型中間結果與最終結果存在某種固定的關聯(lián),而這里則還要求該關聯(lián)與人的思維過程中是相似的。確實,如果模型的腦回路與我們迥然相異的話,我們又憑什么說自己能夠解釋它呢?
在attention的可解釋性上,此前的相關研究還是單從模型本身出發(fā) (model-driven),也就是只停留在了第1層上。比如去年NAACL上發(fā)表的這篇《Attention is not Explanation》,他們人為構造了的新attention向量,用于替換原始向量,發(fā)現(xiàn)模型結果完全不變。由此,他們否認了attention的可解釋性。
今天要和大家分享的這篇paper——《Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?》,發(fā)表于ACL2020,是第一篇從人機比較的角度來討論attention可解釋性的工作。他們先請志愿者在YELP數(shù)據(jù)集上在做文本分類任務,要求志愿者標記出影響其分類結果的重點詞句,作為人類attention(HAM, human attention map)。然后收集不同模型的attention(MAM, machine attention map)。并設計了一套評價指標,用于分析HAM與MAM之間的差異,給出了一些初步的insight。
這份工作最大的潛在contribution是這個HAM的數(shù)據(jù)集(已開源),YELP-HAT。它開辟了一種可能性:基于這個數(shù)據(jù)集,我們或許可以給attention添加一些supervised的控制來提高模型表現(xiàn)。在這方面,CV又一次走在了我們的前面。2016年時一個類似的CV方向數(shù)據(jù),VQA-HAT,就已提出了(如下圖所示)。該數(shù)據(jù)集標記了人類在做看圖問答任務時的attention所在。之后有大量工作follow,研究如何通過添加supervision,使模型能夠attend到關鍵的圖片部分。
原文鏈接:
https://www.aclweb.org/anthology/2020.acl-main.419.pdf
數(shù)據(jù)集鏈接:
http://davis.wpi.edu/dsrg/PROJECTS/YELPHAT/index.html
Arxiv訪問慢的小伙伴也可以在訂閱號后臺回復關鍵詞【0817】下載論文PDF~
HAM vs MAM
這篇paper的思路很好把握:收集HAM數(shù)據(jù)集;生成MAM;設計HAM和MAM的比較體系;比較HAM和MAM,得出初步結論。接下來分這四個部分,為大家梳理paper內容。
收集HAM
作者團隊請志愿者在YELP數(shù)據(jù)集上在做文本分類任務,要求志愿者標記出影響其分類結果的重點詞句,作為HAM。每一篇文本都有三名志愿者進行重復標注。在下圖中,藍色的是兩名志愿者的標注結果,紅色是模型attention。可以看到,與MAM不同,人對一個詞的attention非0即1的(binary)。
生成MAM
作者用三種模型跑了YELP任務,用于生成MAM。三種模型分別是:
RNN
BiRNN
Rationale mechanism,用基于規(guī)則的方式構造attention向量,旨在用supervised的方法模仿人的attention。
下圖是三個模型和人類在YELP數(shù)據(jù)集上的表現(xiàn)(YELP-50/100/200是YELP數(shù)據(jù)集的三個子集,各子集中的文本平均長度依次遞增)。
HAM與MAM的比較體系
作者設計了三個指標,從不同維度比較HAM與MAM的異同:
1. 行為相似度(Behavioral Similarity):HAM和MAM兩個向量之間的AUC,比較了兩者在詞語選擇上的異同。
2. 詞性相似度(Lexical Similarity):先計算HAM和MAM所選詞匯的詞性分布情況,詞性相似度即為兩者之間的相關系數(shù)。
3. 情感詞數(shù)量比(Context-dependency of Sentimental Polarity):這個指標的motivation源于作者發(fā)現(xiàn):那些positive類的文本中也會出現(xiàn)negative的詞匯,反之亦然。進行分類判別時,這類文本中positive和negative的詞語往往都會被attend到。作者希望比較HAM和MAM所attend到的兩類情感詞所占比例是否相同。于是就設計了這個指標。
比較結果與初步結論
下面分別是用三個指標評估HAM和MAM間差距的實驗結果(由于篇幅限制,行為相似度的實驗結果只展示了部分)。
▲行為相似度(取值范圍:0.5~1)▲詞性相似度▲情感詞數(shù)量比在原文中這部分的表格和分析的文字占了很大的篇幅。主要結論包括以下三條:三種指標上,與人類attention相似度最高的都是BiRNN。
當文本長度增加時,人與模型的attention差異變大。
人與模型的attention在詞性相似度上差距不大;情感詞數(shù)量比上,BiRNN也非常接近人類的表現(xiàn);但從行為相似度評估結果來看,人與模型的差異還是比較大的。
小結
本文從人機比較的角度,探討了attention機制的可解釋性。最大的contribution在于提出了YELP-HAT這一人類attention數(shù)據(jù)集,為attention中引入supervision提供可能。個人感覺,原文中的實驗結論還是比較初步的,但不乏繼續(xù)follow、深入挖掘的價值。
文末福利
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的Attention模型:我的注意力跟你们人类不一样的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: EMNLP'21 | 让压缩语言模型自动
- 下一篇: 恕我直言,很多小样本学习的工作就是不切实