使用增强回归树和随机森林模型进行溪流水质预测--文献阅读
?
流域特征和氣候變量(例如地形、土壤、氣候數據)也會影響河流水質。例如,陡坡可能會通過將污染物轉移到溪流中來影響溪流水質,從而導致水質惡化。同樣,土壤特性也會影響水質。例如,以母巖為主的流域顯示出較低的溶解離子值;另一方面,軟沉積巖顯示出較高的溶解離子值。此外,在沉積物沉積量高的流域,河流中的磷含量很高。不同的流域特征可能會影響水質,因為它們會影響動員過程和指標向河流的傳遞
有兩種常用的建模策略可用于預測未計量流域中的河流水質:
(1) 基于物理的確定性模型(例如,分布式水文和水質模型)
(2) 統計和機器學習方法(例如,決策樹模型) )。
流域特征對水質指標的影響往往是復雜和非線性的。最近的機器學習算法可以處理與復雜流域過程相關的非線性關系
此外,RF 和 BRT 算法
(1) 的用戶定義參數較少;
(2) 靈活處理非線性關系、缺失值和異常值;
(3) 可以限制模型過擬合;
(4) 能夠結合定性和定量變量;
(5) 已在不同領域成功應用
本研究旨在解決以下研究問題:
(1)比較和確定基于分類和決策樹方法的最佳機器學習算法,用于河流中的水質(TN、TP 和 TUR)預測;
(2) 基于解釋性機器學習技術(即部分依賴分析)研究影響河流水質的主要變量之間的函數關系和相互作用。
研究區
研究包括位于北卡羅來納州、南卡羅來納州和喬治亞州的 97 個流域
數據選擇
僅根據以下標準選擇了 97 個流域: (1) 不包括嵌套流域,以避免污染物從其他流域轉移;(2) 水庫覆蓋流域面積超過 25% 的流域被剔除; (3) 位于水庫出口下游 50 公里以內的水質站被剔除。
變量的選擇
使用逐步線性回歸 (SR) 來選擇提供最佳線性組合的最少相關變量然而,SR 可能存在統計缺陷,例如偏差估計、標準誤差和 p 值大小;因此,最小絕對收縮和選擇算子 (LASSO) 也用于變量選擇。LASSO 使用交叉驗證技術來找到一組具有最佳性能的重要變量;如果與另一個變量有很強的相關性,LASSO 會將回歸系數縮小到零。此外,還包括了一種非線性方法(遺傳算法,GA)來選擇最重要的氣候/流域特征。GA 是一種自適應優化搜索方法,它模仿達爾文的自然選擇理論來尋找函數的最優值。根據 (Welikala et al., 2015?)的建議,為 GA 定義了三個標準參數設置,種群大小為 50,交叉率為 0.80,突變率為 0.1 。基于四個不同數據集的相關變量用于開發基于 RF 和 BRT 算法的預測模型。?
部分依賴
部分依賴的概念旨在量化主要預測因子與河流中水質指標之間的函數關系。通過整合除感興趣的協變量之外的所有預測變量的影響來評估部分依賴性
模型驗證
每個水質指標的最終模型使用三個統計量度進行評估:Nash-Sutcliffe 效率 (NSE)、平均絕對誤差 (MAE) 和均方根誤差 (RMSE)
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的使用增强回归树和随机森林模型进行溪流水质预测--文献阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: arcgis缓冲后在envi中聚类出错
- 下一篇: 100%自主!国产飞机专用GPU通过鉴定