transformer架构的理解
生活随笔
收集整理的這篇文章主要介紹了
transformer架构的理解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
架構圖:
分為兩大塊,編碼層與解碼層;
本質上來說編碼層會為每一個輸入單詞輸出一個新的representation;可類比于lstm模型中的每個input中對應的hidden state值;而不是一個context vector;
??
解碼層會根據每個輸入word編碼層輸出的representation與前面解碼層輸出的所有預測值?共同預測下一個值;
?
最生動最形象的解釋莫過于此:?
個人認為:transformer架構注意力機制不僅用來連接編碼模塊與解碼模塊,還為每個單詞計算表示;不同于傳統的注意力模型;僅用于編碼與解碼層?連接處;
參考:https://medium.com/@adityathiruvengadam/transformer-architecture-attention-is-all-you-need-aeccd9f50d09
總結
以上是生活随笔為你收集整理的transformer架构的理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos连接jupyter方法并安装
- 下一篇: centos7离线安装bazel