二分类预测
本項目是數(shù)據(jù)的二分類分析,針對俄亥俄州診所患者出現(xiàn)與否數(shù)據(jù)集No-show-Issue-Comma-300k進行樣本的分類預測。首先進行特征探究,觀察里面的連續(xù)變量,布爾值變量以及字符串變量,并繪制不同變量的分布圖。然后對變量中的離群值以及明顯錯誤數(shù)據(jù)進行清洗,探究各變量與狀態(tài)變量之間的關系。最后分別用決策樹,SGD,隨機森林以及梯度Boosting對數(shù)據(jù)集做二分類預測,得到梯度Boosting在ROC_AUC指標下效果最好。
src="https://nbviewer.jupyter.org/github/wzy6642/Machine-Learning-Case/blob/master/noshowappointments/code/NoShowAppointments.ipynb" width="100%" height="1000">github:https://github.com/wzy6642/Machine-Learning-Case
總結
- 上一篇: 回归预测
- 下一篇: Edit Distance Python