李宏毅机器学习(六)自监督学习(一)
學習內容
前情提要
BERT與芝麻街
這些都是BERT的組件
BERT與進擊的巨人
BERT(340 M 參數)
ELMO(94M)
GPT-2(1542M)
Megatron(8B)
T5(11B)
Turing NLG(17 billion)
GPT-3(170 billion)
Bert的基本知識
前提
監督學習: 有標簽
自監督學習:由于沒有標簽,我們需要將文章的某一部分作為特征,另一部分作為標簽,使得特征經過模型后和標簽距離更近;
無監督學習: 就是沒有標簽嘍!
Masking Input
BERT就是輸入一些字符,輸出一些字符;
Mask Input有兩種:第一種是蓋住; 第二種是替換;
但是在輸出結果后還是要和GT標簽計算距離!
Next sentence Prediction (觀察兩個數據是相連還是不相連)
方法:
輸入兩個句子,輸出vector
sep: 兩個句子的分隔符;
CLS: 輸出這兩個句子是不是相連接的,連接 = True; 不連接=Flase;
評價:
沒有用,這個Next sentence Prediction是沒用的
其它:
SOP: sentence order prediction
Used in ALBERT
那Bert有什么用? 填空題?
其它應用?
下游任務! 我們需要Bert進行pre-train,類似胚胎干細胞,fine-tune成不同的Model
GLUE
判斷一個模型好與不好,需要在公開模型中判斷,GLUE就是一個標桿;
GLUE中包含了各種數據集,從而測試不同模型的不同的性能。下圖中是各個子任務達到的SOTA和人類能力的比對。
實例
Case 1: 情感分析
圖片1
線性層是需要隨機初始化的! 而BERT是預訓練的模型(會做填空題的BERT), CLS輸出該句子的情感。
隨機初始化的效果要差!
Case 2:POS(詞性標注) 輸入一個句子輸出一樣長度的句子
圖片2
這里的CLS就沒啥用了,因為我們輸出的是三個
Case3: NLI(自然語言邏輯判斷)
查看兩句話的邏輯是否相通,能否通過前提推出假設! 是不是矛盾的!
圖片3
用在哪? 比如論文和某個人的評論,到底是合理的還是不合理的!
輸入兩個句子,輸出CLS
Case4: QA(問答系統)
讓機器讀后,你提出問題,讓他給你一個答案!
題目: 圖片1
怎么使用BERT: 圖片2
你唯一需要訓練的向量就是兩個隨機初始化的向量,這兩個向量的大小和BERT的產出向量是同樣大小到 !怎么使用這兩個向量呢? 我們先用橙色的向量與右邊的文件向量做Inner Product,查看和document哪個單詞的內積更高,那么s 就等于幾; 藍色的同理,代表了答案結束的向量,d就等于幾。答案= s - d
問題1: 輸入長度有限制嗎?
答: 長度不是無限長的
問題2: 和填空題的區別
答:
訓練Bert 是很困難的
需要3billions單詞, 3000倍哈利波特。
Google的ALBERT;
Bert Embryology 胚胎學
Bert增強= MASS/BART
將Encoder的輸入弄壞!也就是添加Mask,旋轉等 ; 而Decoder需要還原Encoder弄壞的單詞;
T5-Comparison
有這么多弄壞的方法,哪些更好呢? 谷歌T5已經做了! 它是在C4(公開資料集 7T )上計算的。
總結
以上是生活随笔為你收集整理的李宏毅机器学习(六)自监督学习(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql异步复制参数_MySQL Re
- 下一篇: 时间序列 - 案例按步骤详解 -(SPS