【2016年第1期】基于大数据的小麦蚜虫发生程度决策树预测分类模型
張晴晴,劉勇,牟少敏,溫孚江
山東農業大學農業大數據研究中心,山東 泰安 271018
摘要:小麥蚜蟲是危害小麥的主要害蟲。其發生程度預測特別是短期預測一直是植物保護領域難以解決的科學問題。傳統預測方法通常僅采用溫濕度,預測結果與實際發生匹配度不高。基于大數據的理念和數據挖掘技術,通過對2003-2013年小麥蚜蟲發生程度與瓢蟲、寄生蜂、日最高氣壓、日照時數等18種變量關系的決策樹分析,構建了分類模型。經分析發現,日照時數與小麥蚜蟲的發生程度關聯度最高,其次是天敵瓢蟲。該模型置信度為91.49%,且運行穩健。
關鍵詞:小麥蚜蟲;農業大數據;決策樹;分類模型
中圖分類號:S431.9 ?????文獻標識碼: A
doi: 10.11959/j.issn.2096-0271. 2016007
Decision tree predictive classification model on the occurrence degree of wheat aphids based on big data
ZHANG Qingqing, LIU Yong, MU Shaomin, WEN Fujiang
Agricultural Big Data Research Center, Shandong Agricultural University, Taian 271018, China
Abstract: Wheat aphids are the main pests of wheat crops. The monitoring and forecasting of their occurrence degree, especially the short-term occurrence degree, is much difficult. Many traditional predictions rely only on temperature and humidity, so the match degree to the actual occurrence value is low. Based on the concept of big data and data mining programs, the predictive classification model was established by means of the decision tree analysis of the relationship between the occurrence degree of aphids and up to 18 variables. It was found out that the duration of sunshine has the highest degree of relevance to the forecasting level of aphids, followed by ladybird. The confidence coefficient of the model that runs steadily in the experiment is 91.49%.
Key words:wheat aphids, agricultural big data, decision tree, classification model
?
1? 引言
1.1 農業大數據研究背景
大數據的數據分析和挖掘功能可以發現數據間隱藏的相關性,并能通過合適的可視化技術將這種相關性形象地展示出來。這些都有助于人們揭示事物的發生和發展的基本規律,做出快速和符合實際的預測。2014年,荷蘭科學家基于多年數據的深入分析,在《Nature》發文指出,新煙堿類殺蟲劑吡蟲啉的應用是本地食蟲鳥類種群數量減少的主要原因[1];同年,通過分析溫度變化與埃塞俄比亞和哥倫比亞高海拔人口密集區的瘧疾傳播蚊蟲和病原的數量變化關系,美國和英國科學家也在《Science》中發表論文,指明全球變暖會導致非洲和南美洲高原地帶瘧疾病的流行[2]。
農業大數據涉及農業領域的各個環節,采集、整合、挖掘和利用農業大數據,能夠帶來現代農業在農業生產、農業管理、農業經營和農業服務等方面的變革。農作物病蟲害的監測預警是指導病蟲害科學防控,保障國家糧食、食物和生態安全的重要前提。盡管目前病蟲害監測預警已有一些專用的技術和軟件,但往往采集數據指標偏少,數據挖掘技術不高,造成預警結果不準確,與實際發生匹配度不高;或者預測模型可操作性低,不能更好地直接為政府決策或農業生產服務。
1.2 小麥蚜蟲的危害及監測預警
小麥是我國重要的糧食作物之一,山東省所處的黃淮海麥區是我國最主要的小麥產區。小麥長管蚜和禾谷縊管蚜是影響我國小麥生產的最主要害蟲[3]。據統計,我國每年小麥蚜蟲危害面積可達2.5億畝,造成減產15%~30%,嚴重時可高達60%。近年來,全球氣候變暖、耕作制度變化等因素使麥蚜的繁殖能力和適應性顯著增強,其危害日趨嚴重[4]。
監測預警是小麥蚜蟲“統防統治”和有效控制的基礎。它能夠嚴格按照防治閾值的要求服務于政府決策和農業生產。由于小麥蚜蟲發生的普遍性和危害的嚴重性,國內外已有不少對其發生期和發生程度預測的研究[5-8]。但絕大多數研究僅僅是根據有限的氣象數據(如溫度和濕度),采用線性回歸分析,建立相關的線性模型,開展中長期預測。此種預測忽視了生物因子(如自然天敵)及其他非生物因子與蚜蟲發生的關聯性,預測準確度低。因此,依據多年小麥蚜蟲發生時農作物生長發育狀況、氣象條件、天敵因素、周邊環境以及農事管理措施等數據的支撐,以大數據的研究技術,發揮其預測及分析功能,可為小麥蚜蟲的綠色和科學防控服務。
1.3 決策樹C5.0算法的發展及優勢
決策樹(decision tree)是一個類似于流程圖的樹結構,其中每個內部節點表示一個屬性上的測試,每個分枝代表一個測試輸出,而每個葉節點代表一種類別。決策樹這一數據挖掘方法的起源是概念學習系統(concept learning system,CLS)。在CLS的基礎上發展到ID3算法,ID3算法是該方法的高潮[9,10]。ID3算法是由Quinlan R于1986年提出的,他將Shannon的信息論引入決策樹算法中,把信息熵作為選擇測試變量的標準,對訓練集進行分類并構造決策樹來預測如何由變量對整個實例空間進行劃分[11],后來又演化為能處理連續變量的C4.5。最終C5.0算法出現,經過多次改進該算法已經相對成熟,其主要優勢體現在運行速度及性能方面。其另一優勢是分析結果最終以樹型圖或者規則集的形式表示,不受時間的約束,將屬性按照重要度權重大小排列在樹型圖上,在預測小麥蚜蟲發生等級的過程中,可優先考慮重要度較大的屬性,這樣在判斷麥蚜發生等級時較便捷,可充分滿足實際生產的需求。
與SVM及神經網絡只輸出發生等級相比,C5.0樹型圖在田間的可操作性更強。決策樹C5.0可通過人工干預,即決策樹可以被修剪,避免模型的過度擬合。當然,常見的決策樹算法有很多,如CHAID算法和CART算法,其中CHAID算法側重于統計顯著性檢驗;CART算法是根據Gini系數和方差來選擇最佳分組變量和分割點,而C5.0算法以熵值函數將變量分組,在判斷輸入變量的異質性上,顯然后者優于前者。因此,本文選用決策樹C5.0作為構建小麥蚜蟲發生程度模型的算法。
依據大數據理念,在農作物病蟲害監測預警中,首次采用決策樹的數據分析和挖掘手段,構建小麥蚜蟲發生關聯因子的決策樹預測分類模型,為小麥蚜蟲的有效控制,為保障國家糧食、食物安全和促進農業提質增效服務。
?
2? 數據采集與分析
2.1 ?數據特征
本文涉及的數據類型主要包括2003-2013年小麥蚜蟲的發生程度、天敵發生量、小麥生育期及逐日氣象數據。其中,天敵有2類,分別是瓢蟲和寄生蜂,瓢蟲為平均1 m2內的有效蟲態數量,寄生蜂為平均百株僵蚜的數量;氣象的變量種類共16個,分別為:20∶00-次日20∶00降水量、極大風速、極大風速的風向、平均本站氣壓、平均風速、平均氣溫、平均水汽壓、平均相對濕度、日照時數、日最低本站氣壓、日最低氣溫、日最高本站氣壓、日最高氣溫、最大風速、最大風速的風向和最小相對濕度。變量中的2003-2013年小麥蚜蟲的發生程度、天敵發生量和小麥生育期均來自魯中生態區[12]各地植物保護站和本實驗室逐年系統調查的數據。逐日氣象數據來自國家氣象中心。
2.2 ?數據預處理
2.2.1 目標變量離散化
在模型構建中,離散型變量要比連續型變量的處理速度快,因此將目標變量進行離散化處理[13]。根據中華人民共和國農業行業標準(NY/T612-2002)《小麥蚜蟲測報調查規范》,當季蚜蟲累計發生量達到發生總量的16%、50%、84%的時間分別為始盛期、高峰期、盛末期,從始盛期至盛末期一段時間為發生盛期。小麥蚜蟲的發生程度分為5級,主要以當地小麥蚜蟲發生盛期平均百株蚜量來確定,各級指標見表1。
表 1 ?小麥蚜蟲發生程度分級指標
2.2.2 變量刪除
將可以用其他變量代替的變量刪除,小麥生育期的變化基本與日照時數呈正相關,由于小麥生育期是通過觀察小麥的生長發育情況人為確定的,其調查結果的誤差大于日照時數,因此小麥生育期保留日照時數。
2.2.3 決策樹C5.0算法原理
決策樹C5.0算法共涉及3個函數,分別是計算熵值函數、計算信息增益函數和計算信息增益率函數。其中,熵值函數是決策樹的變量選擇函數,用來預測信息位數。熵值函數的計算式如下:
其中,pn為n發生的概率。Entro(p1,p2,…,pn)=0,表示存在唯一的可能性;pn的差別越小,Entro(p1,p2,…,pn)的值就越大,相反,pn的差別越大,熵值就越小。
決策樹中信息熵的計算式如下:
其中,m是一個樣本集合,目標變量n有k個,freq(ni,m)表示n的樣本數,|m|表示集合m的樣本數。
根據計算所得的信息熵值計算信息增益值,信息增益函數是進行變量選擇前后的信息差值的函數。S是某屬性變量,有a個分類,其計算式如下:
Info(T)和Info(S)分別是決策樹進行屬性劃分前后的信息增益值,其計算式如下:
Gain(S)=Info(T)-Info(S)(4)
信息增益率則是逐個計算比較,最終確定樹型圖上節點的位置。
GainRatio(S)=Gain(S)/Info(S)(5)
基于訓練集得到的決策樹通常不是最佳的,因為決策樹中的構造會受到樣本中異常數據的影響,存在過度擬合問題,得到的決策樹因失去一般代表性而不適用于對新數據進行分類預測[14]。因此,需要對決策樹進行剪枝。誤差估計是在訓練樣本基礎上給出一個置信度1-a,C5.0默認的置信度為1-25%=75%,然后計算錯誤率[15]。C5.0算法主要克服了ID3算法中偏向取值多的變量的不足[16]。本文采用IBMSPSSModeler中較成熟的C5.0算法,最終結果可用樹型圖或者規則集的IF-THEN形式顯示。
3 ?結果
將小麥蚜蟲發生程度設置為目標變量,其余變量設置為輸入變量,編寫數據流。其中,樣本中75%的數據作為訓練集,25%的數據作為測試集,運行該數據流,得到信息增益率、樹型圖、規則集及準確率,建立相關的分類模型。
3.1 數據預處理及數據特性
經目標變量離散化及特殊值的去除,統計目標變量的結果如圖1所示。其中,1級占最大比例,4級占比例最少,眾數為1。
圖1 ?小麥蚜蟲發生等級統計
3.2 信息增益率
為消除訓練集中的孤立點,決策樹會對樹型圖進行剪枝訓練,最終得到10個相關性較強的變量。其中,信息增益率最高的變量為日照時數(0.378 2),作為樹型圖的第一個節點進行測試。分別根據信息增益率的值分配各輸入變量的節點位置,見表2。
表2 ?輸入變量的信息增益率
3.3 決策樹樹型圖
C5.0決策樹的分析方法最終運行結果可用樹型圖的形式表示。圖2為部分決策樹樹型圖。
圖2 ?部分決策樹樹型圖
圖2中,節點表示輸入變量,其位置取決于信息增益率的大小。類別是目標變量的取值,即小麥蚜蟲的發生等級,n表示樣本的個數。由圖2可知,當日照時數大于13 h,小麥蚜蟲發生程度為4級;當日照時數小于或等于13 h,并且百株瓢蟲數小于或等于7.6頭時,小麥蚜蟲發生等級為1級;當百株瓢蟲數大于7.6頭時,如日最高本站氣壓大于848.9 hPa且20∶00-次日20∶00降水量大于0.3 mm,則小麥蚜蟲發生等級為3級;當日最高本站氣壓大于848.9 hPa、20∶00-次日20∶00降水量小于或等于0.3 mm且最大風速大于11.5 m/s時,小麥蚜蟲發生等級為2級,以此類推。
3.4 決策樹規則集
規則集可根據樹型圖來提取, 樹型圖中從頭至尾的每一條執行線路為一條規則集, 具體提取方法如圖3所示。
圖3 ?規則集提取流程
決策樹分析結果的另一種表達方式是“IF- THEN” 的規則集形式。 部分規則如下:
規則用于 1 - 包含 2 個規則
規則 1 用于 1.0
如果平均水汽壓≤123
并且日照時數≤130
并且日最低氣溫>112
則 1.000
規則 2 用于 1.0
如果日照時數≤130
則 1.000
規則用于 3 - 包含 1 個規則
規則 1 用于 3.0
如果 20-20時降水量>3
并且日最高本站氣壓>8 489
則 3.000
規則用于 4 - 包含 1 個規則
規則 1 用于 4.0
如果日照時數>130
則 4.000
根據目標變量的取值,該規則集可分為5種規則,分別針對1級、2級、3級、4級和5級小麥蚜蟲發生等級,由于原理類似,本文只呈現部分較短的規則。在每一種規則中包含一個或多個規則,可根據輸入變量預測目標變量,無需再次進行計算機驗證。例如規則用于1中的規則1,如果某年的平均水汽壓小于或等于12.3 hPa,日照時數小于或者等于13 h,并且日最低氣溫大于11.2 ℃,那么小麥蚜蟲的發生等級可預測為1級。
3.5 模型檢驗
C5.0算法常用于商業、醫學等精確估計,其模型的置信度是統計預測值中正確值的個數占總樣本數的比值。經分析,得到樣本中目標變量的正確值與錯誤值。計算得到該模型的置信度為91.49%,且運算穩定(見表3)。由小麥蚜蟲的預測值與真實值的擬合圖可知(如圖4所示),對于5級的預測效果偏離真實值最大。
?表3 ?小麥蚜蟲預測模型的真實值與預測值
圖4 ?決策樹分析結果擬合
4? 討論
農業大數據有其自身特有的復雜性和特殊性,相對于采用二維表來邏輯表達的關系型數據結構,農業領域更多的是半結構化和非結構化數據,如大量的文字、圖表、圖片、動畫語音、視頻等形式組成的超媒體要素以及專家經驗和知識農業模型等[17],這些特性都使其更適合應用大數據技術。加之物聯網技術向農業各領域滲透,大數據技術在農業上的應用已成為農業信息技術發展的必然趨勢[18]。近年來,物聯網技術在農業生產中的應用日漸深入,每年產生海量病蟲害方面的數據,這些數據為農業大數據研究奠定了基礎。大數據落腳于農業,讓理論變為實踐并服務于社會,引領現代農業進入新的發展空間,將會給農業帶來翻天覆地的變化。
精準的數據挖掘并非依賴精準的算法,無論是分類模型還是回歸模型,算法已經經歷了無數次的運行驗證,只有數據的質量才會決定最終結果的準確性。因此數據的預處理環節在數據挖掘中是非常重要的環節[19]。C5.0算法已經被驗證無數次,其準確率高,主要是針對大數據集的分類算法,繼續沿用C4.5算法的運算函數,運行速度和性能在C4.5的基礎上有了明顯提高。其結果最終呈現為非線性,無需假設輸入變量間不相關。其優勢在于分析結果為樹型圖或規則集的形式,在實際生產中無需運行算法,可直接辨別小麥蚜蟲的發生等級。因此,根據本文研究結果,可采集氣象、生育期及天敵參數,預測小麥蚜蟲的發生等級,服務決策和農業生產。
小麥蚜蟲的發生程度與氣象因素和天敵的關聯度高。本文淡化了調查的時間序列,隨機選取訓練集和測試集,通過訓練集找出輸入變量與目標變量之間的固定關系,然后用測試集驗證這一關系。結果顯示,小麥蚜蟲的發生程度與日照時數關聯度最高,其次為瓢蟲和寄生蜂。因此,在小麥生產中,針對小麥蚜蟲發生程度的短期預測,可依據該模型完成。另外,當日照時數達到13 h時,應當注意防控小麥蚜蟲的大發生。
隨著物聯網數據采集技術在病蟲害監測預警中的逐步應用,采集的規范化的海量數據會不斷提高建模的數據質量,將會使預測更加符合實際。
參考文獻:
[1] HHLLMANN C A, FOPPEN R P B, VAN TURNHOUT C A M, et al. Declines in insectivorous birds are associated with high neonicotinoid concentrations[J]. Nature, 2014, 511(7509): 341-343.
[2] SIRAJ A S, SANTOS-VEGA M, BOUMA M J. Altitudinal changes in malaria incidence in highlands of Ethiopia and Colombia[J]. Science, 2014, 343(6175): 1154-1158.
[3] 牟吉元. 農業昆蟲學[M]. 北京: 中國農業科技出版社, 1995: 225-237.
MU J Y. Agricultural Entomology[M]. Beijing: Chinese Agricultural Science and Technology Press, 1995: 225-237.
[4] 遲寶杰, 朱英菲, AXEL V, 等. 麥長管蚜及其天敵的種群發生和食物網分析[J]. 應用昆蟲學報, 2014, 51(6): 1496-1503.
CHI B J, ZHU Y F, AXEL V, et al. Demographic and quantitative food web analysis of Sitobion avenae and its natural enemies[J]. Chinese Journal of Applied Entomology, 2014, 51(6): 1496-1503.
[5] PIYARATNE M K D K, ZHAO H Y, HU Z Q, et al. A model to analyze weather impact on aphid population dynamics: an application on swallow tall catastrophe model[J]. European Scientific Journal, 2014, 10(18): 1857-7431.
[6] DEBORAH J T, ART J D, FRAN?OISE A B, et al. Forecasting aphid outbreaks and epidemics of cucumber mosaic virus in lupin crops in a Mediterranean-type environment[J]. Virus Research, 2004, 100(1): 67-82.
[7] LUO J H, HUANG W J, ZHAO J L, et al. Predicting the probability of wheat aphid occurrence using satellite remote sensing and meteorological data[J]. Optik, 2014, 125(19): 5660-5665.
[8] 李文峰, 尹彬, 曹志偉, 等. 許昌市小麥蚜蟲種群變化規律及氣象預測模型[J]. 河南農業科學, 2011, 40(3): 81-84.
LI W F, YIN B, CAO Z W, et al. Variation of wheat aphid population in Xuchang and prediction models with meteorological data[J]. Journal of Henan Agricultural Sciences, 2011, 40(3): 81-84.
[9] QUINLAN J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106.
[10] QUINLAN J R. C4.5: Programs for Machine Learning[M]. Burlington: Morgan Kaufmanns Publishers, 1993: 69-81.
[11] 張家旺, 韓光勝, 張偉. C5.0算法在RoboCup傳球訓練中的應用研究[J].計算機仿真, 2006, 23(4): 132-153.
ZHANG J W, HAN G S, ZHANG W. Application of C5.0 algorithmin passing ball training of RoboCup[J]. Computer Simulation, 2006, 23(4): 132-153.
[12] 于成. 基于cropwat的山東省主要糧食作物生產水足跡區域差異研究[D]. 濟南: 山東師范大學, 2014: 9-11.
YU C. Study on regional of production water footprint of main crop based on cropwat in Shandong province[D]. Jinan: Shandong Normal University, 2014: 9-11.
[13] 朱廷勛, 高文. 基于數據挖掘的普通話韻律規則學習[J]. 計算機學報, 2000, 23(11): 1179-1184.
ZHU T X, GAO W. Data mining for learning mandarion prosodic models[J]. Journal of Computer Science, 2000, 23(11): 1179-1184.
[14] 劉軍. 基于決策樹算法的客戶流失預測系統的分析與研究[D]. 武漢: 武漢理工大學, 2010: 45-54.
LIU J. Research of customer churn system based on decision tree algorithm[D]. Wuhan: Wuhan University of Technology, 2010: 45-54.
[15] 薛微, 陳歡歌. Clementine 數據挖掘方法及應用[M]. 北京: 電子工業出版社, 2010: 140-142.
XUE W, CHEN H G. Clementine Data Mining Methods and Applications[M]. Beijing: Electronic Industry Press, 2010: 140-142.
[16] 陸安生, 陳永強, 屠浩文. 決策樹C5算法的分析與應用[J]. 電腦知識與技術, 2005, 9(3): 17-20.
LU A S, CHEN Y Q, TU H W. The analysis and application of decision tree C5 algorithm[J]. Computer Knowledge and Technology, 2005, 9(3):17-20.
[17] 孫忠富, 杜克明, 鄭飛翔, 等. 大數據在智慧農業中研究與應用展望[J]. 中國農業科技導報, 2013, 15(6): 63-71.
SUN Z F, DU K M, ZHENG F X, et al. Perspectives of research and application of big data on smart agriculture[J]. Journal of Agricultural Science and Technology, 2013, 15(6): 63-71.
[18] 孫忠富, 杜克明, 尹首一. 物聯網發展趨勢與農業應用展望[J]. 農業網絡信息, 2010(5): 5-8.
SUN Z F, DU K M, YIN S Y. Development trend of internet of things and perspective of its application in agriculture[J]. Agriculture Network Information, 2010(5): 5-8.
[19] 彭鴻濤, 聶磊. 發現數據之美——數據分析原理與實踐[M]. 北京: 電子工業出版社, 2014: 5-7.
PENG H T, NIE L. Discover the Beauty of Data--Data Analysis Theory and Practice[M]. Beijing: Electronic Industry Press, 2014: 5-7.
張晴晴(1991-),女,山東農業大學碩士生,主要研究方向為農業大數據。
劉勇(1968-),男,山東農業大學教授、博士生導師,主要研究方向為害蟲綠色防控和農業大數據。
牟少敏(1964-),男,博士,山東農業大學教授,主要研究方向為大數據、機器學習和模式識別。
溫孚江(1955-),男,現任山東農業大學校長、教授,農業大數據創新戰略聯盟理事長,全國人民代表大會常務委員會委員。早年留學美國,并獲博士學位。主要從事植物保護研究和宏觀農業研究工作。發表論文210余篇,專著5部。最近一部專著《大數據農業》由中國農業出版社于2015年9月出版。目前主要從事農業大數據應用研究工作,是我國農業大數據研究主要發起人之一。
總結
以上是生活随笔為你收集整理的【2016年第1期】基于大数据的小麦蚜虫发生程度决策树预测分类模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 函数设计概念和指南
- 下一篇: 数据库系统实训——实验八——数据库维护