泰坦尼克号数据集_机器学习入门—泰坦尼克号生存率预测
項目名稱:泰坦尼克號生存率預測1.導入數據
這里使用kaggle kernel編寫代碼
數據下載地址為:https://www.kaggle.com/c/titanic
2.數據統計分析
通過describe和info方法,我們可以發現Age,Cabin,Embarked和Fare的數據都有不同程度的缺失,同時Age和Fare的數據存在錯誤的數據。
3.數據清洗
a)首先對數據類型缺失值的處理
這里使用fiilna方法進行填充,填充值為平均值。
b)字符串類型缺失數據的處理
4.特征提取
數值類型:直接使用
時間序列:轉成單獨的年、月、日
分類數據:用數值代替類別,One-hot編碼
這里分類數據又分為:有類別的以及字符串,有類別的包括Sex,Embarked以及Pclass,字符串則包括:Name,Cabin以及Ticket
分類數據的特征提取:性別
分類數據的特征提取:登船港口,客艙等級
這里使用get_dummies方法來進行one-hot編碼
分類數據的特征提取:姓名
先定義一個提取姓名中名稱的函數,使用的是split方法
再用map和get_dummies函數進行處理
分類數據的特征提取:客艙號
分類數據的特征提取:家庭類別
這里通過分類,將家庭規模分為單個,小家庭以及大家庭并存儲至familyDf數據集中
特征選擇:使用corr分析各個數據
這里將與生存率有關的相關系數進行降序排列,看看誰與生存率的關系最大
5.構建模型
首先使用train_test_split函數用于將矩陣隨機劃分為訓練子集和測試子集,并返回劃分好的訓練集測試集樣本和訓練集測試集標簽。
再使用LogisticRegression進行邏輯回歸的模型進行訓練
評估模型:這里使用model.score方法對模型進行評估,最終得到模型的準確率為0.8。
6.方案實施
總結
以上是生活随笔為你收集整理的泰坦尼克号数据集_机器学习入门—泰坦尼克号生存率预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python propresql mys
- 下一篇: 计算机基础word-常见问题