[机器学习] 半监督学习---伪标签Pseudo-Label
大數據時代中,在推薦、廣告領域樣本的獲取從來都不是問題,似乎適用于小樣本學習的偽標簽技術漸漸淡出了人們的視野,但實際上在樣本及其珍貴的金融、醫療圖像、安全等領域,偽標簽學習是一把鋒利的匕首,簡單而有效。
什么是偽標簽技術
先說第一個問題,假設我們現在有一個文本分類模型(先不用管分類模型是怎么來的以及怎么訓練的),以及大量的無標注數據。
我們現在使用文本分類模型對無標注數據進行預測,挑選softmax之后概率最大的那個類別為當前無標注數據對應的標簽。
因為是無標注數據而且我們模型準確不可能是百分之百,從而導致預測的這個標簽我們并不清楚是不是精準,所以我們稱之為"偽標簽"。
偽標簽的定義來自于半監督學習,半監督學習的核心思想是通過借助無標簽的數據來提升有監督過程中的模型性能。
想象一下這樣一種情況,在訓練中,標記數據的數量更少,而未標記數據的數量更多。 一種稱為半監督學習( [Semi-Supervised Learning],SSL)的新技術,它是監督學習和非監督學習的混合體。 顧名思義,半監督學習中同時存在一組標記的訓練數據和另一組未標記的訓練數據。
2 Pseudo-Labelling 偽標簽
偽標簽是使用標記的數據模型預測未標記數據并進行標記的過程。 首先,模型已經訓練了包含標簽的數據集,該模型用于為未標記的數據集生成偽標簽。 最后,將數據集和標簽(原始標簽和偽標簽)組合在一起以進行最終模型訓練。 之所以稱為偽(意味著虛幻),是因為它們可能是真實標簽,也可能不是真實標簽,并且是通過我們基于類似的數據模型生成的標簽。
該方法的主旨思想其實很簡單。首先,在標簽數據上訓練模型,然后使用經過訓練的模型來預測無標簽數據的標簽,從而創建偽標簽。此外,將標簽數據和新生成的偽標簽數據結合起來作為新的訓練數據。
首先,在標簽數據上訓練模型,然后使用經過訓練的模型來預測無標簽數據的標簽,從而創建偽標簽。此外,將標簽數據和新生成的偽標簽數據結合起來作為新的訓練數據。具體步驟如下:
偽標簽的具體用法
偽標簽技術的使用自由度非常高,在這里我們介紹最常用的也是最有效的三種:
入門版
1. 使用標記數據訓練有監督模型M
2. 使用有監督模型M對無標簽數據進行預測,得出預測概率P
3. 通過預測概率P篩選高置信度樣本
4. 使用有標記數據以及偽標簽數據訓練新模型M’
進階版
1. 使用標記數據訓練有監督模型M
2. 使用有監督模型M對無標簽數據進行預測,得出預測概率P
3. 通過預測概率P篩選高置信度樣本
4. 使用有標記數據以及偽標簽數據訓練新模型M’
5. 將M替換為M’,重復以上步驟直至模型效果不出現提升
創新版
1. 使用標記數據訓練有監督模型M
2. 使用有監督模型M對無標簽數據進行預測,得出預測概率P
3. 將模型損失函數改為Loss = loss(labeled_data) + alpha*loss(unlabeled_data)
4. 使用有標記數據以及偽標簽數據訓練新模型M’
總結
以上是生活随笔為你收集整理的[机器学习] 半监督学习---伪标签Pseudo-Label的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国银行信用卡额度一般是多少,分为几种情
- 下一篇: 基于jQuery实现的双11天猫拆红包抽