sql数据导入错误代码: 0x80004005_SQL入门第八关 项目实战
不知不覺,學SQL已經一個多月了,每天下班學一個小時,有空做做練習題。從之前的焦慮到現在已經有了一定的自信了,猴子的課程真的很適合小白入門,尤其是SQL學習群里,助教老師很盡責,每個問題都會解答。當然更多的還是需要自己多加練習,查資料,看書,當自己遇到自己不會的問題時,通過自己研究解決問題的感覺太棒了,久違的成就感。
因為本身自己是做金融行業的,今天的項目實戰就選取金融行業的實戰數據進行一個簡單的風控策略分析,其中不乏一些解決問題的心路歷程,有點啰嗦,閑話少說,實戰開始:
一、數據選取及導入
首先拿到數據的時候我是懵逼的:
從網盤上下載的數據選取的數據總共57356條,其實不算多。但主要是有69列,字段名都是因為英文,很多金融行業的專業詞匯,自己只能看懂一些,雖然有部分釋義,但只有幾個,而且沒辦法一一對照著看,在Google的幫助下勉強把列名翻譯成了我能看懂的中文,大概是這樣:
我盡力了(一)在做數據導入之前,先弄清楚兩個問題:自己有什么?自己想要干什么?
1.自己有什么?數據總共69個字段,包含了客戶的貸前貸中貸后的各個標簽維度,我們將逾期客戶定義為壞客戶,非逾期客戶定義為好客戶。
2.我想要什么?我想要的是如何通過已知客戶的數據分析得出結論,設置風控策略,將其中一部分壞客戶拒掉。這其中有一個假設,就是未來的客戶表現在概率上的特征與存量數據客戶在概率上是一致的。也就是說,我們通過已有的數據分析得出壞客戶標簽最明顯的那部分客戶,可能是一個、也可能是多個標簽,將這部分客戶剔除掉,就能使得我們的逾期率得到改善。由于是要做的是貸前風控策略,所以我們把其中貸中和貸后的數據都暫時刪除掉。
最終經過自己的初步篩選,除了主鍵以外,我們選取的列還剩下20個可供我們進行分析。
(二)數據的導入
按照數據的步驟進行操作,結果第一步就卡殼了,EXCEL表打不開,在公眾號上查了解決方案后,發現需要去網上下一個微軟的數據導入讀取插件,accessdatebaseengine之類的。在網上找到下載以后就能打開了。
緊接著一路順暢,到了最后一步發現又難住了,提示錯誤。
直接將錯誤代碼百度了一下,發現是字段太多了,字段太長導致超標了‘too large’,于是在上一步把255改成了100,實際可以視業務和字段情況而定,我這里就是圖省事兒。
然后就好了
接下來就可以開始分析了
二、數據分析
首先,我們分析原數據里‘是否逾期’這一列直接用的0和1來表示的,也就是說我們要分析的Y變量可以直接用SUM(是否逾期)來表示我們的壞客戶
第一步,我們先看看這組數據整體的逾期率,取出來是29.66%,可以說是很高了,也就是說我們需要從其他變量中選取一些變量來分析壞客戶,然后假設把他們剔除掉以優化我們好客戶的占比,目標是降低29.66%這個數:
第二步,對各個列進行分析(這里有一個重要的小技巧,也是在助教老師的提示下才解決的)
首先,按信用評分分組統計,我的結果是這樣的:
這里我發現其中B,C,D和HR,NC,E可以進行三三分類,因為他們的逾期率相差不大。如何運用SQL語句實現這一點,說實話我想了很久,最后還是在群里助教老師的提示下,茅舍頓開,才有了下面的語句實現了這一點:
把語句格式問題解決了,接下來就簡單了,把所有需要分析的字段分別分組列出來就行了,這里由于篇幅有限,只放區分度最好的兩個,除了上面的信用評級,還有征信總查詢次數,具體SQL語句都大同小異:
下圖是征信查詢次數
最終我們得到的數據結果分組后,在EXCEL上顯示如下圖
三、計算提升度和評估執行后的效果
為什么要計算提升度?計算提升度是指——我們通過運用數據來計算各分組最差的那一檔的客戶,占總逾期賬戶數的權重是多少。具體公式是:分組最差檔位逾期客戶數/總逾期客戶數/分組用戶占比。
這里得到的數值,我們稱之為提升度。。大概邏輯是:最差這一檔逾期客戶占比除以這一檔所占的權重。將以上各個分組計算后,于是我們得到了下面這個圖:
從圖中我們可以看出:“征信總查詢次數”和“信用等級”這兩個字段最差檔位的逾期客戶的提升度最大。
接下來我們就可以擬定我們的風控策略了:
兩種策略的執行結果分別是:
若征信查詢次數>=21則拒絕,總逾期率會下降1.69%,但會拒絕掉5.44%的客戶。
若信用評級為“E,HR,NC”則拒絕,總逾期率會下降3.54%,但會拒絕掉12.09%的客戶。
根據這兩天策略,我們可以直接給出建議,看是為了選擇3.54%的逾期率降幅去犧牲掉12.09%的客戶(這其中有7.66%的好客戶)呢?還是只選擇降低1.69%的逾期率,只犧牲掉5.44%的客戶(這其中有3.17%的好客戶)?這就要看公司決策層的戰略和風險偏好了,后者對風險的容忍度較高。
四、總結和感悟
實際上,在信貸行業的策略中,我們要做的永遠都是一個平衡問題,如何去找到收益和風險之間的那個點。
目前頭部的幾家互聯網金融公司和各大銀行所采用的風控模型都是基于大數據量下的風控,所以數據分析能力在當今的信貸行業相當重要,在客戶數據達到一定量級以后,我們關注的都是大數據條件客戶逾期的概率問題??傮w所設定的風險策略是自己能風險偏好能接受的,同時能產生收益最大化,也就是我們信貸風險分析的終極目標。
這其中有幾個問題值得我們進一步學習和探討:
1.自己所做的分檔是根據數據表現人工抉擇表現接近的歸為一檔的分檔方式,是否有更科學的分箱規則,如何來實現?
2.單維度的風控策略邏輯相對簡單,但現實中我們往往遇到的多維度和更加細化的策略抉擇問題:例如‘信用評級’最低的那一個檔位里,有沒有其他變量又能從中區分出壞人中的好人,或者是壞人中的‘鐵壞人’,這就涉及到不同變量之間的交叉分析,到底哪幾個特征綜合在一起抓住壞人的概率更高?
基于以上兩個問題,我想機器學習和PYTHON運用 能告訴我答案,咱們高級課程見。。。。
總結
以上是生活随笔為你收集整理的sql数据导入错误代码: 0x80004005_SQL入门第八关 项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java不显示图片_Java图片显示不出
- 下一篇: 计算机管理员相关知识,计算机管理员述职报