类型转换与采样 || SMOTE算法
生活随笔
收集整理的這篇文章主要介紹了
类型转换与采样 || SMOTE算法
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Data Transformation
Attribute Types
Type Conversion
? ? 復雜的編碼:?
簡單的編碼:
Sampling
Imbalanced Datasets
?SMOTE算法
SMOTE(Synthetic Minority Oversampling Technique),合成少數(shù)類過采樣技術.它是基于隨機過采樣算法的一種改進方案,由于隨機過采樣采取簡單復制樣本的策略來增加少數(shù)類樣本,這樣容易產生模型過擬合的問題,即使得模型學習到的信息過于特別(Specific)而不夠泛化(General),SMOTE算法的基本思想是對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,算法流程如下。
(1)對于少數(shù)類中每一個樣本x,以歐氏距離為標準計算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰。?
(2)根據(jù)樣本不平衡比例設置一個采樣比例以確定采樣倍率N,對于每一個少數(shù)類樣本x,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為xn。?
(3)對于每一個隨機選出的近鄰xn,分別與原樣本按照如下的公式構建新的樣本。
?歐式距離
歐幾里得度量(euclidean metric)(也稱歐氏距離)是一個通常采用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。
總結
以上是生活随笔為你收集整理的类型转换与采样 || SMOTE算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 离群点检测算法——LOF(Local O
- 下一篇: 类别不平衡问题 —— 各种评估指标