对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结
對《基于機器學習的區域滑坡危險性評價方法綜述》閱讀的總結
1.摘要
? 這篇綜述主要系統闡述了:作者通過閱讀文獻,總結了基于機器學習技術解決滑坡危險性評價方法;可以分為 1、評價因子選擇 2、數據清洗與樣本集構建 3、模型選取與訓練評價 這三個關鍵環節對現有研究成果進行分析評述;最后對機器學習滑坡危險性評價方法的發展趨勢提出討論意見。
2.研究背景
? 由于我國國土面積體量大,地形地貌種類繁多,所以相應的滑坡災害影響范圍廣。因此可以通過一些方法對區域滑坡危險性進行評估,進而劃分輕重緩急區別對待。
? 以往經驗方法:
-
基于GIS對山區地質災害進行分析,建立數據庫并開發評價模型。
-
多種數學模型開展的穩定性分區制圖。
大多以數學統計分析方法為主,通過構建滑坡災害影響因子評價體系,開展各影響因子與滑坡之間的統計規律,最后基于 GIS 開展滑坡危險性評價區
3.評價因子選取
評價單元是具有相同特性的最小地域單元,常用評價單元一般歸納為 5 類,所在確定評價單元時經常使用網格單元和斜坡單元 。
3.1評價單元的劃分
- 網格單元
- 斜坡單元
3.2評價因子常用選取辦法:
現狀環境因子一般都是項目所處環境已存在或現有的對大氣、地表水、聲、生態等產生影響的因子,
3.2.1相關性分析確定評價因子:
? 對多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。
用各種方法剔除高共線性因子和低影響性因子
3.2.2決策樹確定評價因子:
? 使用特征分裂數、特征平均覆蓋率和特征平均增益值等方法來計算評價因子特征度量指標,反應了各個因子對 RF 模型的解釋程度,根據模型輸出的混淆矩陣分析準確度和因子特征重要性,最后得出坡度的特征重要性最高,即特征貢獻最大。
3.2.3隨機森林特征重要性確定評價因子:
? 這里的目的就是用隨機森林來進行特征篩選,可參考方法(推算出每個因子做的貢獻度的程度):
說白了就是看看每個特征在隨機森林中的每顆樹上做了多大的貢獻,然后取個平均值,最后比一比特征之間的貢獻大小。
-
每次隨機打亂任意一個滑坡因子
取值,分析前后隨機森林模型的 ACC 變化,變化程度和特征重要性成正比,再通過專家賦值法賦值相應判別指
標重要性,構造因子判斷矩陣 U -
通常可以用Gini index或者袋外數據(OOB)錯誤率作為評價指標來衡量。
我們將變量重要性評分(variable importance measures)用VIM來表示,將Gini指數用GI來表示,假設有m個特征X1,X2,X3,… Xc,現在要計算出每個特征X j的Gini指數評分VIM(j);即第j個特征在RF所有決策樹中節點分裂不純度的平均改變量。
Gini指數的計算公式為:
其中,K表示有K個類別,Pmk表示節點m中類別k所占的比例。
直觀地說,就是隨便從節點m中隨機抽取兩個樣本,類別標記不一致的概率。
特征Xj在節點m的重要性,即節點m分枝前后的Gini指數變化量為:
其中,GI(L)和GIp?分別表示分枝后兩個新節點的Gini指數。
如果,特征 Xi 在決策樹i中出現的節點為集合M,那么 Xi 在第 i 顆樹的重要性為
假設RF中共有n顆樹,那么
最后,把所有求得的重要性評分做一個歸一化處理即可。
值得慶幸的是,sklearn已經幫我們封裝好了一切,我們只需要調用其中的函數即可。
3.3因子量化與歸一化
1.目的:
? 需要評估并篩選原始災害因子,以選擇合適的災害因子,避免有一些高維特征因子,使得數據多余,增加計算成本,從而影響機器學習的評價精度。簡單來講就是把數最小為0最大為1的小數,主要是為了數據處理方便,把數據映射到0~1范圍之內處理,更加便捷快速,
? 由于使用的模型對連續變量處理不完善,同樣也將歸一化之后的數據采取了離散化處理,即歸一化后結果乘 10,將評估價指標限定在 0~10。結果顯示空間分布更合理,適合大尺度上的災害危險性評價。
2.歸一后好處:
- 可以提升模型的精度。
- 提升模型的收斂速度。
3.方法:
-
min-max標準化
也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:
其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
-
Z-score標準化方法
這種方法給予原始數據的均值(mean) 和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分布,即均值為0,標準差為1,轉化函數為:
其中u為所有樣本數據的均值,σ為所有樣本數據的標準差。
4.數據處理
4.1原始樣本選擇
? 常用的方法是用Gis收集隨機點或者區域,再以一定比例的正負樣本來構造隨機森林原始數據集來進行危險性評價。
4.2數據清洗與樣本集構建
1.目的:
? 目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。提高模型精度。
2.方法:
`第一步:缺失值清洗(確定缺失值范圍->去除不需要的字段->填充缺失內容->重新取數)
第二步:格式內容清洗(時間顯示,不應存在的字符等)
第三步:邏輯錯誤清洗(去掉一些使用簡單邏輯推理就可以直接發現問題的數據)
第四步:非需求數據清洗(把不要的字段刪了)
第五步:關聯性驗證`
5.模型選取與訓練調參
5.1案例方法
5.3模型調參
? 傳統方法(網格搜索法,優化精度和速度成反比)和超參數優化算法------>貝葉斯優化算法(采用了高斯過程,通過增加樣本數量來擬合目標函數分布,目標函數通過交叉驗證精度來進行優化); 貝葉斯法比網格搜索法更高效,優化精度更高。
5.4模型比選
? 常用: 最常用的評價方法是模型精確度(Accuracy)、ROC 曲線和 AUC 值。
? 案例:
-
訓練出幾種不同的模型,分別繪制 ROC 曲線,并對比各模型評價結果。
-
通過 ROC 曲線、Kappa 系數和 Sridevi Jadi 精度評估方法評價對比了 5幾種模型,最終綜合這三種評價結果選取出最恰當的評價模。型。
6.總結
總結
以上是生活随笔為你收集整理的对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 列表写入excel_[py
- 下一篇: java通过Excel 模板导出复杂统计