基于 Isolation Forest 未决案件异常检测结果展示
目錄
前言
一、檢測結果展示
二、異常數據特征可視化
1.周期與金額比較
? ? ? ? ?2.結合責任對比
? ? ? ? ?3.結合車型分析
? ? ? ? ?4.結合滯留環節分析
總結
前言
未決案件從某種程度上也可以算是無監督數據(因為沒有歷史標記),通過非監督式方法實現的異常檢測可以縮小排查范圍,提供更加精準和高效的執行目標。
Isolation Forest (孤立森林):一種與隨機森林類似,高效的集成算法。基本原理是異常樣本相對于正常樣本可以用較少的特征劃分出來,本例就是想通過該算法將純車物未決案件異常樣本標記出來,研究其特征,提供一些新的思路。
本例主要是對類別為異常的數據進行特征分析展示,算法實現過程就省略了。
一、檢測結果展示
數據量:5018,? 標記為異常的數據:765, 異常數據占比:15.2%,部分整合后數據展示如下:
‘-1’表示模型識別為異常數據
二、異常數據特征可視化
1.周期與金額比較
?異常數據相比正常數據,平均滯留周期及平均估損金額都較高
2.結合責任對比
?重點關注高于均值的部分
3.結合車型分析
?從上表得出案件數最多的不一定是異常率最高的,下面結合Axes3D圖及矩陣圖展示分析
?矩陣圖說明:橫軸是案件量、縱軸是平均滯留周期,圓圈大小是平均估損金額。
結合Axes3D圖及矩陣圖可以看出:黨政機關客車及非營業貨車異常率較高,異常率超過40%,且黨政機關客車的平均滯留周期很高,處在矩陣圖第二象限,且該車型都是公司車輛,是否存在手續方面的問題導致周期很高,這個可以結合原始數據具體案件具體分析。營業貨車是唯一處在第一象限的,即數量及周期都高于平均數,金額也不小,且該車型基本都是掛靠,是否也是手續、配件等方面的問題,可以結合數據個案分析。
4.結合滯留環節分析
說明:柱圖表示滯留周期,折線表示案件量
矩陣圖坐標軸與車型矩陣圖一致
滯留環節方面:訴訟、退票、重開/補賠申請3個環節的異常率都超過70%,同時未調度環節滯留周期超高、估損金額也不低,單證及其他這兩個處在第一象限的環節,件數及滯留周期都超過平均值,上述這些環節都可以結合原始數據重點分析原因。
總結
1. 結合上述圖標可以看出,滯留周期及估損金額是異常案件區別于正常案件的主要特征。
2.由于未決形成的原因是多方面的,以上僅展示了幾個不同維度下的情況,還有很多維度可以挖掘,就不一一展示,由于異常案件是由算法識別,具體到個案分析,‘異常案件’并不一定就是異常,還需要結合實際經驗及案情判斷。結合算法識別后的數據特征,可以從特征出發,具體分析,對癥下藥,提升清理的效率,減少盲清。
3. 對于無監督類的數據,聚類也是一種區分的好方法,下一篇再分享了。
總結
以上是生活随笔為你收集整理的基于 Isolation Forest 未决案件异常检测结果展示的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android RecyclerView
- 下一篇: matlab-流体Sod激波管问题L-W