AAAI21最佳论文Runners Up!Transformer的归因探索!
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAAI21)
一元@煉丹筆記在之前大家對于Transformer的理解都是,Transformer的成功得益于強大Multi-head自注意機制,從輸入中學習token之間的依賴關系以及編碼上下文信息。我們都很難解釋輸入特性如何相互作用以實現預測的。Attention計算得到的分數也并不能完美的解釋這些交互作用,本文提出一種自我注意歸因方法來解釋Transformer內部的信息交互。我們以Bert為例進行研究。首先,我們利用自我注意歸因來識別重要的注意頭,其它注意頭會隨著邊際效果的下降而被剪掉。此外,我們提取了每個層中最顯著的依賴關系,構造了一個屬性樹,揭示了Transformer內部的層次交互。最后,我們證明了歸因結果可以作為對抗模式來實現對BERT的非目標攻擊。
那么該方案是怎么做的呢?
上圖左側是微調后的BERT中一個頭部的注意力分數。我們觀察到:
- 注意力得分矩陣是相當密集的,雖然只有一個12個head。這很難讓我們去理解單詞在Transformer中是如何相互作用的。
- 此外,即使注意力分數很大,也不意味著這對詞對決策建模很重要;
- 相比之下,我們的目標是將模型決策歸因于自我注意關系,如果交互作用對最終預測的貢獻更大,那么自我注意關系往往會給出更高的分數。
attribution分數可以通過積分的Riemman近似來計算得到,具體地說,我們在從零注意矩陣到原始注意權重A的直線路徑上以足夠小的間隔出現的點處求梯度的和。
其中m為近似的步數,后續實驗中,我們將其設置為20。
我們再看一下下面這張圖:
我們發現:
- 更大的注意分數并不意味著對最終預測的貢獻更大。SEP標記與其它標記之間的注意得分相對較大,但獲得的歸因得分較少。
- 對contradiction類的預測,最主要的是第一節中的“don't”與第二節中的“I know”之間的聯系,這種聯系更容易解釋。
我們發現:
- 歸因得分修剪頭部會對模型效果可以產生更顯著的影響。
- 在每一層中只修剪Top2的兩個歸因分數的頭部會導致模型精度的極大降低。相比之下,保留它們有助于模型達到近97%的準確率。即使每層只保留兩個heads,模型仍然可以有很強的性能。
- 和attention分數相比,使用attention分數裁剪heads的影響不是非常明顯,這也充分證明了我們方法的有效性。
2.實驗對比
- 使用我們的方法進行裁剪的效果是最好的。
本文提出了自我注意歸因(ATTATTR),它解釋了Transformer內部的信息交互,使自我注意機制更易于解釋。文章進行了定量分析,證明了ATTATTR的有效性。此外,利用本文提出的方法來識別最重要的注意head,從而提出了一種新的頭部剪枝算法。然后利用屬性得分得到交互樹,從而可視化變壓器的信息流。本文的方法非常有參考價值。
AAAI21最佳論文Runners Up!Transformer的歸因探索! 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的AAAI21最佳论文Runners Up!Transformer的归因探索!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Attention函数手册
- 下一篇: 对样本不均衡一顿操作