Transformer and set Trasformer
1.Transformer
-
multihead attention block:MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)MAB(X,Y)=LayerNorm(H+rFF(H))\\ H=LayerNorm(X+multihead(X,Y,Y;\omega)MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)
* Attention:Att(Q,K,Vl;ω)=ω(QKT)VAtt(Q,K,Vl;\omega)=\omega(QK^T)VAtt(Q,K,Vl;ω)=ω(QKT)V
* multi:multihead(Q,K,V;λ,ω)=concat(O1,...,Oh)WOmultihead(Q,K,V;\lambda,\omega)=concat(O_1,...,O_h)W^Omultihead(Q,K,V;λ,ω)=concat(O1?,...,Oh?)WO -
self-attention
- self-attention:Q=Wqx;K=Wkx;V=WvxQ=W_qx;K=W_kx;V=W_vxQ=Wq?x;K=Wk?x;V=Wv?x
-
Mask:解碼第i個單詞,只知道第i-1及之前的信息,然后與self-attention 一致
- 被mask的為1:因為att+softmax之后會變成0
- 被mask的為1:因為att+softmax之后會變成0
-
encoder-decorder Attention
- K,V使用encoder,Q用上一層的輸出
-
除根號:
1.1 PE
1.2優點
- 并行
- 無PE則是詞袋模型
- 重點self-attention
set transformer
1.1 19年ICML::Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks
- problem:set-input
- 需求:
- 排列不變性
- 可輸入任意尺寸集合
- 與transformer區別:
- 不輸入PE
- decoder第一個self-attention改為:pooling
- 公式
- SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)–說是set attention實際是self-attention?$
- 時間復雜度O(n^2)$
- 改進,降低空間復雜度ISAB(X)=MAB(X,H)∈Rn×dwhereH=MAB(I,X)∈Rm×d,I是可訓練參數ISAB(X)=MAB(X,H)\in R^{n\times d}\\ where H=MAB(I,X)\in R^{m\times d},I是可訓練參數ISAB(X)=MAB(X,H)∈Rn×dwhereH=MAB(I,X)∈Rm×d,I是可訓練參數
- 時間復雜度O(mn)O(mn)O(mn)
- 降維了大概
- Pooling,可訓練的:PMAk(Z)=MAB(S,rFF(Z)),S∈Rk×d,Z是encoder的輸出PMA_k(Z)=MAB(S,rFF(Z)),S\in R^{k\times d},Z是encoder的輸出PMAk?(Z)=MAB(S,rFF(Z)),S∈Rk×d,Z是encoder的輸出
- SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)–說是set attention實際是self-attention?$
1.2 pool:另一種pool的方式
- code
- ICLR2020: FSPOOL: LEARNING SET REPRESENTATIONS WITH FEATUREWISE SORT POOLING
- loss:排序后可用 MSE
1.2.1集合輸出的損失函數
- 都具有排列不變性
- O(n3)O(n^3)O(n3)的匈牙利算法:找最優匹配
- Joint Entity and Relation Extraction with Set Prediction Networks用的也是這個?
- Joint Entity and Relation Extraction with Set Prediction Networks用的也是這個?
- O(n^2):找最像的
1.2.2排序使得模型具備排列不變性:feature sort pooling
- 先對每一維度的特征排序,將排序后的特征加權求和。
- 排序后就無需再計算loss前進行分配,而分配的復雜度高
- why 按行排序???為什么不對object排序??
- 因為這樣可以忽略object的個數問題。
1.2.2.1 fixed-size sets
- 先按行排序(對特征排序),這樣每一列不能單獨代表一個object,但是特征是解耦的,所以排序不會丟失信息
- 排序不可微分,但可以梯度反傳(像最大池化一樣)
1.2.2.2 VARIABLE-SIZE SETS
- W:是個固定長度的向量
1.2.3 decoder
- 自編碼器,使用逆排序對齊x
- loss
1.2 對抗學習的set transformer:loss
- ICML2020 Spotlight:Generative Adversarial Set Transformers
- 用對抗學習充當loss
參考
【1】transformer
【2】set transformer
【3】fs pool
總結
以上是生活随笔為你收集整理的Transformer and set Trasformer的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于位置的知识图谱链接预测
- 下一篇: 时间约束的实体解析中记录对排序研究