Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略
Dataset:GiveMeSomeCredit數據集的簡介、下載、使用方法之詳細攻略
目錄
GiveMeSomeCredit數據集的簡介
1、數據集基本描述
2、EDA后總結
3、數據集基本形狀
Give Me Some Credit數據集的下載
Give Me Some Credit數據集的使用方法
GiveMeSomeCredit數據集的簡介
? ? ? ?銀行在市場經濟中起著至關重要的作用。他們決定誰可以獲得資金,以什么條件,可以做出或打破投資決定。要使市場和社會正常運轉,個人和企業都需要獲得信貸。
? ? ? ?基于Give Me Some Credit數據集,通過預測某人在未來兩年內經歷財務困境的可能性,改進信用評分的先進水平。信用評分算法,猜測違約的可能性,是銀行用來決定是否應該發放貸款的方法。這項競賽要求參與者通過預測某人在未來兩年內遭遇財務困境的可能性,來提高信用評分的技術水平。這項競賽的目標是建立一個借款人可以用來幫助做出最佳財務決策的模型。該網站提供了25萬名借款人的歷史數據,獎金總額為5000美元(第一名3000美元,第二名1500美元,第三名500美元)。
| Serious Dlqin 2yrs | Revolving UtilizationOf Unsecured Lines | age | Number Of Time 30-59 Days Past Due Not Worse | DebtRatio | Monthly Income | Number OfOpen Credit Lines And Loans | Number OfTimes 90Days Late | Number Real Estate Loans Or Lines | NumberOfTime60-89DaysPastDueNotWorse | NumberOfDependents | |
| 1 | 1 | 0.766126609 | 45 | 2 | 0.802982129 | 9120 | 13 | 0 | 6 | 0 | 2 |
| 2 | 0 | 0.957151019 | 40 | 0 | 0.121876201 | 2600 | 4 | 0 | 0 | 0 | 1 |
| 3 | 0 | 0.65818014 | 38 | 1 | 0.085113375 | 3042 | 2 | 1 | 0 | 0 | 0 |
| 4 | 0 | 0.233809776 | 30 | 0 | 0.036049682 | 3300 | 5 | 0 | 0 | 0 | 0 |
| 5 | 0 | 0.9072394 | 49 | 1 | 0.024925695 | 63588 | 7 | 0 | 1 | 0 | 0 |
| 6 | 0 | 0.213178682 | 74 | 0 | 0.375606969 | 3500 | 3 | 0 | 1 | 0 | 1 |
| 7 | 0 | 0.305682465 | 57 | 0 | 5710 | NA | 8 | 0 | 3 | 0 | 0 |
| 8 | 0 | 0.754463648 | 39 | 0 | 0.209940017 | 3500 | 8 | 0 | 0 | 0 | 0 |
| 9 | 0 | 0.116950644 | 27 | 0 | 46 | NA | 2 | 0 | 0 | 0 | NA |
| 10 | 0 | 0.189169052 | 57 | 0 | 0.606290901 | 23684 | 9 | 0 | 4 | 0 | 2 |
| 11 | 0 | 0.644225962 | 30 | 0 | 0.30947621 | 2500 | 5 | 0 | 0 | 0 | 0 |
| 12 | 0 | 0.01879812 | 51 | 0 | 0.53152876 | 6501 | 7 | 0 | 2 | 0 | 2 |
| 13 | 0 | 0.010351857 | 46 | 0 | 0.298354075 | 12454 | 13 | 0 | 2 | 0 | 2 |
| 14 | 1 | 0.964672555 | 40 | 3 | 0.382964747 | 13700 | 9 | 3 | 1 | 1 | 2 |
| 15 | 0 | 0.019656581 | 76 | 0 | 477 | 0 | 6 | 0 | 1 | 0 | 0 |
| 16 | 0 | 0.548458062 | 64 | 0 | 0.209891754 | 11362 | 7 | 0 | 1 | 0 | 2 |
| 17 | 0 | 0.061086118 | 78 | 0 | 2058 | NA | 10 | 0 | 2 | 0 | 0 |
| 18 | 0 | 0.166284079 | 53 | 0 | 0.18827406 | 8800 | 7 | 0 | 0 | 0 | 0 |
| 19 | 0 | 0.221812771 | 43 | 0 | 0.527887839 | 3280 | 7 | 0 | 1 | 0 | 2 |
| 20 | 0 | 0.602794411 | 25 | 0 | 0.065868263 | 333 | 2 | 0 | 0 | 0 | 0 |
1、數據集基本描述
| Variable Name | Description/EDA | Type | EDA | |
| 11 | SeriousDlqin2yrs | Person?experienced 90 days past due delinquency or worse 逾期90天或更糟 | Y/N | Serious Delinquent in 2 year,也就是2年內發生嚴重逾期,其中”嚴重“定義為逾期超過90天。 本數據集中,大約6%的樣本違約。 |
| 1 | age | Age of borrower in years 借款人年齡(以年為單位) | integer | 可知有更多的年輕人違約,而且總體分布似乎還不錯 |
| 2 | MonthlyIncome | Monthly income 月收入 | real | 存在缺失值,29731(19.82%) 數值分布偏斜,我們可以考慮用中位數進行插補。 我們還可以考慮用正態分布值及其均值和標準差進行插補。 |
| 3 | NumberOfDependents | Number of dependents in family excluding themselves (spouse, children etc.) 家庭受扶養人數(配偶、子女等除外) | integer | 存在缺失值,3924 (2.61%) 我們可以考慮用它的眾數進行插補,眾數為零。 |
| 4 | DebtRatio | Monthly debt payments, alimony,living costs divided by monthy gross income 每月的債務支付,贍養費,生活費除以每月的總收入 | percentage | 2.5%的客戶的負債大約是他們所擁有資產的3490倍或更多; 對于月收入在2.5%的人來說,只有185人的月收入值是0或1; 這185人中有164人有兩種不同的類型,第一種是沒有月收入的人沒有違約,第二種是有月收入的人有違約。 |
| 5 | NumberOfOpenCredit | Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards) 公開貸款(分期付款,如汽車貸款或抵押貸款)和信用額度(如信用卡) | integer | |
| 6 | NumberRealEstate | Number of mortgage and real estate loans including home equity lines of credit 按揭和房地產貸款的數量,包括房屋凈值信貸額度 | integer | |
| 7 | RevolvingUtilization | Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits 除房地產和汽車貸款等無分期付款債務外,信用卡和個人信用額度余額除以信用額度總和 | percentage | 定義為所欠款項總額與總信用額度之比率; 處理邏輯:預計隨著這個值的增加,違約的人的比例也會增加;但是,我們可以看到,由于該列的最小值設置為13,因此違約者的比例小于屬于欠款總額不超過總信用額度的客戶池的比例。 因此,我們應該刪除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的樣本。 |
| 8 | NumberOfTime30-59DaysPastDueNotWorse | Number of times borrower has been 30-59 days past due but no worse in the last 2 years. 借款人逾期30-59天的次數,但在過去兩年沒有更糟。 | integer | 有趣的是,不存在逾期(13~96)次的樣本 |
| 9 | NumberOfTime60-89DaysPastDueNotWorse | Number of times borrower has been 60-89 days past due but no worse in the last 2 years. 借款人逾期60-89天的次數,但在過去兩年沒有更糟。 | integer | 有趣的是,不存在逾期(11~96)次的樣本 |
| 10 | NumberOfTimes | Number of times borrower has been 90 days or more past due. 借款人逾期90天或以上的次數。 | integer | 有趣的是,不存在逾期(17~96)次的樣本 |
2、EDA分析后總結
? ? ? ? ?通過可視化分析后可知,當NumberOfTimes90DaysLate的值高于17時,有267個樣例,其中三個列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特別是96和98。我們可以看到,分別分享96和98的相同值是不符合邏輯的,因為微不足道的計算可以揭示,30天過期96次,一個人在2年的時間跨度內是不可能的。
| NumberOfTime30-59DaysPastDueNotWorse | NumberOfTime60-89DaysPastDueNotWorse | NumberOfTimes90DaysLate |
| 0 ????126018 1 ?????16033 2 ??????4598 3 ??????1754 4 ???????747 5 ???????342 6 ???????140 7 ????????54 8 ????????25 9 ????????12 10 ????????4 11 ????????1 12 ????????2 13 ????????1 96 ????????5 98 ??????264 | 0 ????142396 1 ??????5731 2 ??????1118 3 ???????318 4 ???????105 5 ????????34 6 ????????16 7 ?????????9 8 ?????????2 9 ?????????1 11 ????????1 96 ????????5 98 ??????264 | 0 ????141662 1 ??????5243 2 ??????1555 3 ???????667 4 ???????291 5 ???????131 6 ????????80 7 ????????38 8 ????????21 9 ????????19 10 ????????8 11 ????????5 12 ????????2 13 ????????4 14 ????????2 15 ????????2 17 ????????1 96 ????????5 98 ??????264 |
3、數據集基本形狀
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Unnamed: 0 150000 non-null int64 1 SeriousDlqin2yrs 150000 non-null int64 2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float643 age 150000 non-null int64 4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64 5 DebtRatio 150000 non-null float646 MonthlyIncome 120269 non-null float647 NumberOfOpenCreditLinesAndLoans 150000 non-null int64 8 NumberOfTimes90DaysLate 150000 non-null int64 9 NumberRealEstateLoansOrLines 150000 non-null int64 10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64 11 NumberOfDependents 146076 non-null float64 dtypes: float64(4), int64(8) memory usage: 13.7 MBGive Me Some Credit數據集的下載
數據集下載:Give Me Some Credit | Kaggle
Give Me Some Credit數據集的使用方法
更新中……
總結
以上是生活随笔為你收集整理的Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 成功解决AttributeError:
- 下一篇: Python语言学习:利用pandas对