當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自注意力机制Self-attention（2）

發布時間：2024/8/23 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了自注意力机制Self-attention（2）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄：
自注意力機制Self-attention（1）
自注意力機制Self-attention（2）

1 內容回顧

以 $b^2$ 的計算過程為例來說明：
query： $q^1 = W^q a^1$ , $q^2 = W^q a^2$ , $q^3 = W^q a^3$ , $q^4 = W^q a^4$ ;
key： $k^1 = W^k a^1$ , $k^2 = W^k a^2$ , $k^3 = W^k a^3$ ， $k^4 = W^k a^4$ ;
value： $v^1 = W^v a^1$ , $v^2 = W^v a^2$ , $v^3 = W^v a^3$ , $v^4 = W^v a^4$ ;
attention score： $α2,1=q2?k1\alpha_{2,1} = q^2 \cdot k^1$ , $α2,2=q2?k2\alpha_{2,2} = q^2 \cdot k^2$ , $α2,3=q2?k3\alpha_{2,3} = q^2 \cdot k^3$ , $α2,4=q2?k4\alpha_{2,4} = q^2 \cdot k^4$ ;
Soft-max： $α2,1′=exp?(α2,1)∑jexp?(α2,j)\alpha_{2,1}^{'} = \frac{\exp(\alpha_{2,1})}{\sum_j \exp(\alpha_{2,j})}$ , $α2,2′=exp?(α2,2)∑jexp?(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,2})}{\sum_j \exp(\alpha_{2,j})}$ , $α2,3′=exp?(α2,3)∑jexp?(α2,j)\alpha_{2,3}^{'} = \frac{\exp(\alpha_{2,3})}{\sum_j \exp(\alpha_{2,j})}$ , $α2,2′=exp?(α2,4)∑jexp?(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,4})}{\sum_j \exp(\alpha_{2,j})}$ ;
$b2=α2,1′v1+α2,2′v2+α2,3′v3+α2,4′v4=∑iα2,i′vib^2 = \alpha_{2,1}^{'}v^1 + \alpha_{2,2}^{'}v^2 + \alpha_{2,3}^{'}v^3 + \alpha_{2,4}^{'}v^4 = \sum_i \alpha^{'}_{2,i}v^i$ .
問： $a1,…,a4a^1, \dots, a^4$ 是什么？
答：就是輸入的一組向量，如經過編碼后的“I saw a saw”。
問： $W^q$ , $W^k$ , $W^v$ 是什么？
答：矩陣，需要通過學習得到。

下面通過矩陣操作進一步來回顧自注意力機制的計算過程。

查詢矩陣： $Q = W^q I$ ;
關鍵字矩陣： $K = W^k I$ ;
值矩陣： $V = W^v I$ .

注意力分數矩陣： $A = K^T Q$ ;
進行Soft-max： $A^{'} = softmax(A)$ ;

$O = V A^{'}$

唯一需要學的參數是 $W^q$ , $W^k$ , $W^v$ 。

總結

以上是生活随笔為你收集整理的自注意力机制Self-attention（2）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：这里有众多领域的数据集，然后还有一百万奖
下一篇：这款堪称完美的PDF编辑器，帮你节省50