當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Transformer、BERT学习笔记

發布時間：2025/3/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Transformer、BERT学习笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Transformer

引言

Attention Is All You Need
文章鏈接
本文出自NIPS2017，一作是Ashish Vaswani，來自Google Brain。Transformer最開始是基于機器翻譯任務提出的，打破了傳統的RNN框架，完全依賴于注意力機制。能夠很容易的并行訓練，僅在8個P100上訓練了12個小時，就實現了當時的新SOTA。

解析

整體結構

Transformer的結構如下圖所示。還是機器翻譯領域傳統的Encoder-Decoder架構。

Encoder部分使用 $N = 6$ 個Layer組成，每個Layer又包含兩個sub-layer，分別是：多頭注意力層（Multi-Head Attention）、前向傳播層（Feed Forward）。每個sub-layer后面都添加了一個layer normalization層（出自文章），且使用了類似ResNet的跳躍連接。綜上，對于輸入為 $x$ 的sub-layer，它的輸出是： $LayerNorm(x+Sublayer(x))\text{LayerNorm}(x+\text{Sublayer}(x))$ 。

Decoder部分也是使用 $N = 6$ 個Layer組成，每個Layer包含三個sub-layer，分別是：帶有掩碼的多頭注意力層（Masked Multi-Head Attention）、多頭注意力層（Multi-Head Attention）、前向傳播層（Feed Forward）。

注意力機制

首先介紹基于點積的注意力（Scaled Dot-Product Attention），再引申出本文中用到的自注意力（Self Attention）和多頭注意力（Multi-Head Attention）。

基于點積的注意力的網絡結構如下圖所示，具有三個輸入： $Q$ 、 $K$ 和 $V$ ，分別代表 $Q u e r y$ 、 $K e y$ 和 $V a l u e$ ，這三個變量的含義下面會詳細介紹。

下面，以機器翻譯為例子，詳細介紹注意力機制的計算過程。假設，此時模型的輸入 $I="word1word2word3"I="word_1 \space word_2 \space word_3"$ ，使用 $N$ 表示單詞個數，例子中 $N = 3$ 。

Embedding
對輸入的句子

I

進行word embedding后，可以得到句子的特征

E

，是一個

\times Dim^E

的矩陣。按照下標進行索引即可得到每個單詞的特征，這里使用

Ei(1≤i≤N)E_i(1 \le i \le N)

表示單詞

word_i

的特征，每個

E_i

的大小均為

\times Dim^E

。

獲取

Q, K, V

使用三個不同的權重矩陣

W^Q, W^K, W^V

，分別乘以

E

即可得到

Q, K, V

，大小分別為

NQ×DimQ,NK×DimK,NV×DimVN^Q \times Dim^Q, \space N^K \times Dim^K, \space N^V \times Dim^V

。

W^Q, \space K = E W^K, \space V = E W^V

直觀上來看，

N^Q=N^K=N^V=N

（實際上不一定，后文會說），下面以這種假設為前提，看一下如何計算Attention。

計算Attention
對于單詞

word_i

來說，首先，通過索引得到其對應的查詢向量

Q_i

。通過矩陣乘法操作

S_i=Q_i K^T

可以得到一個大小為

\times N

的向量

S_i

，而

S_i[j]

即為

word_i

和

word_j

的Score。然后，使用

softmax\text{softmax}

將Score進行歸一化，得到Attention Weight

W_i

，大小仍是

\times N

，含義仍是

W_i[j]

表示

word_i

和

word_j

的相關性。，整個過程可以概括為（初始時

Q_i

的大小為

\times Dim^Q

）：

\times Dim^Q \space \space \space \underrightarrow{\times K^T} \space \space \space 1 \times N \space \space \space \underrightarrow{\text{softmax}} \space \space \space 1 \times N \space \space \space \underrightarrow{\times V} \space \space \space 1 \times Dim^V

不難發現，對于每一個

Q_i

，分別計算再將結果Concatenate和直接使用

Q

進行計算得到的結果是一致的：

\times Dim^Q \space \space \space \underrightarrow{\times K^T} \space \space \space N \times N \space \space \space \underrightarrow{\text{softmax}} \space \space \space N \times N \space \space \space \underrightarrow{\times V} \space \space \space N \times Dim^V

上述介紹中，筆者實際上省略了論文中的一個重要操作——除以

DimK\sqrt{Dim^K}

，文中給出的此操作的作用是：作者同時測試了點積注意力和additive attention（出自文章）的表現，在

Dim^K

很小時，兩種注意力的性能接近，在

Dim^K

很大時，前者的表現要更出色。而隨著

Dim^K

的增加，點積操作

QK^T

得到的結果會變大，經過

softmax\text{softmax}

后，反向傳播回來的梯度會很小，會對訓練過程帶來阻礙，故除以

DimK\sqrt{Dim^K}

進行縮放，再進行

softmax\text{softmax}

。綜上，完整的計算Attention的過程為：

Attention(Q,K,V)=softmax(QKTDimK)V\text{Attention}(Q, K, V)=\text{softmax}(\frac{QK^T}{\sqrt{Dim^K}})V

現在，總結一下注意力到底做了什么。我覺得用一句話概括，就是：使用 $K, V$ 來獲得 $Q$ 的更優表示。（以下部分參考了[2]）

$Q$ 代表我們想要表達的內容（或序列，暫記為 $X$ ）在高維空間 $A$ 中的表達， $K$ 代表某內容（或序列，暫記為 $Y$ ）在高維空間 $A$ 中的表達， $V$ 代表某內容（或序列，暫記為 $Y$ ）在高維空間 $B$ 中的表達。即：
$\space K=A(Y), \space V=B(Y)$
也就是說，通過計算兩個不同序列 $X, Y$ 在同一高維空間 $A$ 的相似度，作為權重作用在序列 $Y$ 在另一高維空間 $B$ 上，從而獲得序列 $X$ 在高維空間 $B$ 中的表達 $B (X)$ 。

由上面這些分析可知，在注意力模塊中，必滿足以下兩個約束：

Dim^Q = Dim^K

（即：

Q

和

K

在同一高維空間中，這樣才可以計算相似度）

N^K = N^V

（即：

K

和

V

中的“單詞”（不一定限定于單詞）個數相同，因為他們是同一序列在不同高維空間的表達）

自注意力

其實只有一句話， $Q = K = V$

多頭注意力

這部分也很好理解，就是通過多組不同的 $Q, K, V$ 分別計算注意力，再Concat一下。這樣可以學到不同空間的表示。

Positional Encoding

TO DO.

參考

[1] https://blog.csdn.net/longxinchen_ml/article/details/86533005
[2] https://zhuanlan.zhihu.com/p/104393915

BERT

引言

Pre-training of Deep Bidirectional Transformers for Language Understanding
文章鏈接

解析