机器学习:正负样本数据量不平衡处理方法
生活随笔
收集整理的這篇文章主要介紹了
机器学习:正负样本数据量不平衡处理方法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
無偏采樣:意味著真實樣本總體的類別比例在訓練集中得以保持。
在訓練集中正反例數目不同時,令表示正例數目,表示反例數目,觀測幾率為,,我們假設訓練集是真是樣本總體的無偏采樣,因此觀測幾率就代表了真實幾率。只要分類器的預測幾率高于觀測幾率就應判定為正例,即
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?若?,則預測為正例。
再縮放(再平衡):? ? ? ? ? ? ?(1)。
再縮放思想雖然簡單,但是實際操作卻不平凡,主要因為無偏采樣的假設往往不成立,就是說我們未必能有效的基于訓練集觀測幾率來推斷出真實幾率。現有技術上大體上有三類做法:欠采樣(下采樣),過采樣(上采樣),閾值移動。
欠采樣:若隨機丟失反例,可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學習機制,將多數類樣本劃分若干個集合供不同學習器使用,這樣對每個學習器來看都進行了欠采樣,但在全局來看不會丟失信息。
過采樣:不能簡單的對初始樣本進行重復采樣,否則會招致嚴重的過擬合。代表性算法SMOTE,對訓練集里的樣本進行插值產生額外樣本。
閾值移動:直接基于原始訓練集進行學習,但在用訓練好的分類器進行預測時,將式(1)嵌入決策過程中。
解決這類問題主要分重采樣、欠采樣、調整權值?
總結
以上是生活随笔為你收集整理的机器学习:正负样本数据量不平衡处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python错误处理
- 下一篇: 数据结构:堆python实现与堆排序