数据挖掘提分三板斧!
作者:王茂霖,華中科技大學,Datawhale成員
內容概括
數據挖掘提分三板斧:
1.金斧-數據清洗和特征工程
2.銀斧-模型參數調節
3.銅斧-模型集成
PPT下載:后臺回復“210406”可獲取
視頻地址:https://www.bilibili.com/video/BV1MU4y1h75G
數據清洗和特征工程
一、關于數據清洗
1.缺失值處理:
2.異常值處理:
數據清洗-數據分桶
3.數據分桶:
4.數據標準化:在不同的問題中,標準化的意義不同
(1)在回歸預測中,標準化是為了讓特征值有均等的權重;
(2)在訓練神經網絡的過程中,通過將數據標準化,能夠加速權重參數的收斂;
(3)主成分分析中,需要對數據進行標準化處理;默認指標間權重相等,不考慮指標間差異和相互影響。
數據清洗的示例:
二、關于特征工程
1.特征構造:
2.特征選擇:
特征工程的示例:
模型參數調節
一、關于建模調參
1.理解模型
2.性能驗證
3.模型調參
模型集成
一、關于模型集成
1.加權融合
2.Boosting/Bagging
3.Stacking/Blending
模型集成示例:
本文作者
王茂霖,Datawhale重要貢獻成員,Datawhale&天池數據挖掘學習賽開源內容發起人,全網閱讀超10w。
參賽30余次,獲得BCIC-數字中國創新創業大賽亞軍,全球城市計算AI挑戰賽,Alibaba Cloud German AI Challenge等多項Top10。
分享地址
復制鏈接打開(或閱讀原文)
https://www.bilibili.com/video/BV1MU4y1h75G
總結
以上是生活随笔為你收集整理的数据挖掘提分三板斧!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UC浏览器PC版新版有什么特点
- 下一篇: Outlook2010怎么关联邮箱 Ou