Github|类别不平衡学习资源(下)
點擊上方“算法猿的成長“,關注公眾號,選擇加“星標“或“置頂”
總第 139 篇文章,本文大約 3600?字,閱讀大約需要 10?分鐘
繼續介紹類別不平衡學習資源,github 地址:
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning
上篇文章地址:
Github|類別不平衡學習資源(上)
另外,完整版閱讀可以到我的知乎專欄:https://zhuanlan.zhihu.com/p/142692473
這次介紹的是下面目錄加粗的內容:
代碼庫/框架
Python
R
Java
Scalar
Julia
論文
綜述
深度學習
數據重采樣(Data resampling)
成本敏感學習(Cost-sensitive Learning)
集成學習(Ensemble Learning)
異常檢測
其他
不平衡數據庫
其他的資源
另外,帶有???? 標記的是作者特別推薦的重要或者高質量的論文和框架。
數據重采樣
過采樣
ROS [Code] - 隨機過采樣
SMOTE [Code] (2002, 9800+ 引用) ,合成少數類的過采樣技術(Synthetic Minority Over-sampling TEchnique)
???? 經典的工作
Borderline-SMOTE [Code] (2005, 1400+ 引用) ,邊界合成少數類的過采樣技術;
ADASYN [Code] (2008, 1100+ 引用) ,自適應合成采樣(ADAptive SYNthetic Sampling);
SPIDER [Code (Java)] (2008, 150+ 引用) ,不平衡數據的選擇性預處理;
Safe-Level-SMOTE [Code (Java)] (2009, 370+ 引用) ,安全級綜合少數類的過采樣技術;
SVM-SMOTE [Code] (2009, 120+ 引用) ,基于 SVM 的 SMOTE
SMOTE-IPF (2015, 180+ 引用) ,迭代分區過濾的 SMOTE
欠采樣
RUS [Code],隨機欠采樣;
CNN [Code] (1968, 2100+ 引用) ,濃縮的最近鄰(Condensed Nearest Neighbor);
ENN [Code] (1972, 1500+ citations) ,可編輯的濃縮的最近鄰(Edited Condensed Nearest Neighbor);
TomekLink [Code] (1976, 870+ citations) ,Tomek 對濃縮的最近鄰的修正方法;
NCR [Code] (2001, 500+ 引用) , 近鄰的清洗規則;
NearMiss-1 & 2 & 3 [Code] (2003, 420+ 引用) ,幾種解決不平衡數據分布的 KNN 方法
CNN with TomekLink [Code (Java)] (2004, 2000+ 引用) ,結合了濃縮的最近鄰和 TomekLink 方法;
OSS [Code] (2007, 2100+ 引用):單邊選擇(One Side Selection);
EUS (2009, 290+ 引用) :進化的欠采樣(Evolutionary Under-sampling);
IHT [Code] (2014, 130+ 引用) :實例難度閾值(Instance Hardness Threshold);
混合采樣
SMOTE-Tomek & SMOTE-ENN (2004, 2000+ 引用) [Code (SMOTE-Tomek)] [Code (SMOTE-ENN)] ?,綜合少數過采樣技術和 Tomek 對壓縮近鄰/編輯近鄰的修改;
????廣泛的實驗評估涉及10種不同的過/欠采樣方法。
SMOTE-RSB (2012, 210+ 引用) ,混合了使用 SMOTE 預處理和粗糙集合理論;
成本敏感學習
CSC4.5 [Code (Java)] (2002, 420+ 引用) ,一個實際加權方法來引起成本敏感樹;
CSSVM [Code (Java)] (2008, 710+ 引用) ,用于高度不平衡分類的成本敏感 SVMs;
CSNN[Code (Java)] (2005, 950+ 引用) ,基于解決類別不平衡問題的方法來訓練一個成本敏感的神經網絡;
集成學習
Boosting-based
AdaBoost[Code] (1995, 18700+ 引用)
DataBoost (2004, 570+ 引用)
SMOTEBoost [Code] (2003, 1100+ 引用)
???? 經典的工作
MSMOTEBoost(2011, 1300+ 引用)
RAMOBoost [Code] (2010, 140+ 引用)
RUSBoost[Code] ?(2009, 850+ 引用)
???? 經典的工作
AdaBoostNC (2012, 350+ 引用)
EUSBoost (2013, 210+ 引用)
bagging-based
Bagging [Code] (1996, 23100+ 引用) ,Bagging 預測器;
OverBagging & UnderOverBagging & SMOTEBagging & MSMOTEBagging [Code (SMOTEBagging)] (2009, 290+ 引用) ,基于 Bagging 的隨機過采樣/隨機混合重采樣/ SMOTE / 修改版 SMOTE;
UnderBagging [Code] (2003, 170+ 引用) ,基于 Bagging 的隨機欠采樣;
其他繼承方法
EasyEnsemble & BalanceCascade[Code (EasyEnsemble)] [Code (BalanceCascade)] ?(2008, 1300+ 引用) , 使用 RUS 進行并行集成訓練(EasyEnsemble) / 使用 RUS 進行級聯集成訓練,同時迭代地刪除分類很好的樣本(BalanceCascade);
???? 簡單但有效的方法
Self-paced Ensemble [Code] (ICDE 2020) ,用自適應協調分類困難訓練不平衡數據的有效集成;
???? 高性能和計算效率高,廣泛適用于不同的分類器。
異常檢測
Anomaly Detection Learning Resources,異常檢測相關的書籍、論文、視頻和工具箱。
綜述
Anomaly detection: A survey (2009, 7300+ 引用)
A survey of network anomaly detection techniques (2017, 210+ 引用)
基于分類
One-class SVMs for document classification (2001, 1300+ 引用)
One-class Collaborative Filtering (2008, 830+ 引用)
Isolation Forest (2008, 1000+ 引用)
Anomaly Detection using One-Class Neural Networks (2018, 70+ 引用)
Anomaly Detection with Robust Deep Autoencoders (KDD 2017, 170+ 引用)
其他
不平衡數據集
上述數據集的集合來自 imblearn.datasets.fetch_datasets
其他資源
Paper-list-on-Imbalanced-Time-series-Classification-with-Deep-Learning
acm_imbalanced_learning ,2016年4月27日在德克薩斯州奧斯汀市舉行的ACM不平衡學習講座的幻燈片和代碼;
imbalanced-algorithms ,基于python實現的算法學習不平衡的數據;
imbalanced-dataset-sampler ,一種(PyTorch)非平衡數據集采樣器,用于過采樣低頻率類和欠采樣高頻率類;
class_imbalance ,通過 Jupyter Notebook 展示的二進制分類的類別不平衡;
最后,github 地址是:
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning
另外,本人水平有限,所以對部分專業術語的翻譯可能并不正確,沒法做到非常完美,請多多包涵,謝謝!
最后,如果想查看完整版,以及可以點擊論文或者代碼鏈接的,可以查看我發表在知乎上的文章:
https://zhuanlan.zhihu.com/p/142692473
精選AI文章
1.??2020年計算機視覺學習指南
2.?是選擇Keras還是PyTorch開始你的深度學習之旅呢?
3.?編寫高效的PyTorch代碼技巧(上)
4.?編寫高效的PyTorch代碼技巧(下)
5.?深度學習算法簡要綜述(上)
6.?深度學習算法簡要綜述(下)
7.?10個實用的機器學習建議
8.?實戰|手把手教你訓練一個基于Keras的多標簽圖像分類器
精選python文章
1.??python數據模型
2.?python版代碼整潔之道
3.?快速入門 Jupyter notebook
4.?Jupyter 進階教程
5.?10個高效的pandas技巧
精選教程資源文章
1.?[資源分享] TensorFlow 官方中文版教程來了
2.?[資源]推薦一些Python書籍和教程,入門和進階的都有!
3.?[Github項目推薦] 推薦三個助你更好利用Github的工具
4.?Github上的各大高校資料以及國外公開課視頻
5.?GitHub上有哪些比較好的計算機視覺/機器視覺的項目?
歡迎關注我的微信公眾號--算法猿的成長,或者掃描下方的二維碼,大家一起交流,學習和進步!
?如果覺得不錯,在看、轉發就是對小編的一個支持!
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的Github|类别不平衡学习资源(下)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序人生:写给新入行程序员职业生涯的10
- 下一篇: 计算机网络基础:局域网协议相关知识