基于环境气象因素影响的异常就诊量预测
基于環(huán)境氣象因素影響的異常就診量預(yù)測
于廣軍1,2,熊贇3,4,彭思佳4,5,阮璐3,4
1. 上海市兒童醫(yī)院,上海 200040
2. 上海交通大學(xué)醫(yī)學(xué)院,上海 200025
3. 復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433
4. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200433
5. 復(fù)旦大學(xué)化學(xué)系,上海 200433
摘要:通過分析某兒童醫(yī)院傳染科就醫(yī)人數(shù)異常(突增、突減)情況,建立就醫(yī)人數(shù)與氣象特征間的分類模型,實(shí)現(xiàn)對傳染科就醫(yī)突變情況的高準(zhǔn)確率預(yù)測,以便院方合理調(diào)配科室、安排醫(yī)生出診人數(shù)。建立的模型對就醫(yī)人數(shù)突增情況的預(yù)測準(zhǔn)確率達(dá)到92.8%,召回率達(dá)到83.5%;對就醫(yī)人數(shù)突減情況的預(yù)測準(zhǔn)確率達(dá)到87.4%,召回率達(dá)到92.4%,并與多種分類器進(jìn)行比較,實(shí)驗(yàn)表明該方法在預(yù)警傳染科就診人數(shù)的突變方面綜合表現(xiàn)更佳。
關(guān)鍵詞:環(huán)境氣象因素;隨機(jī)森林;異常預(yù)測
doi:10.11959/j.issn.2096-0271.2018030
論文引用格式:于廣軍, 熊贇, 彭思佳, 等. 基于環(huán)境氣象因素影響的異常就診量預(yù)測[J]. 大數(shù)據(jù), 2018, 4(3): 54-60.
YU G J, XIONG Y, PENG S J, et al. Abnormal detection of hospital admissions based on meteorological factors[J]. Big Data Research, 2018, 4(3): 54-60.
1? 引言
環(huán)境氣象被認(rèn)為是影響人類健康的因素之一,某些疾病的發(fā)生與惡化通常具有明顯的周期性氣候特征[1,2]。如春季氣溫回升,細(xì)菌滋生,小兒麻疹、 風(fēng)疹、水痘、手足口病等病高發(fā);秋冬季氣溫下降,肺結(jié)核、哮喘、肺炎、流行性感冒等疾病較為嚴(yán)重。另外,空氣污染物顆粒,如 NOx、NO2、CO、O3、SO2、PM2.5、PM10等,都有可能導(dǎo)致相關(guān)疾病發(fā)生率升高 [3,4]。
就醫(yī)人數(shù)作為疾病發(fā)生率的一種表現(xiàn),易于統(tǒng)計,分析不同科室就醫(yī)人數(shù)與氣候變化的關(guān)系,為就醫(yī)人數(shù)建立預(yù)測模型和公共衛(wèi)生部門做出決策提供支持[5],同時可以為人們選擇就醫(yī)時段提供參考。當(dāng)前,反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)可以被準(zhǔn)確全面地記錄和整理。因?yàn)樯婕半[私,對特定疾病發(fā)病情況的收集相對困難,而特定科室的就醫(yī)人數(shù)也可以在一定程度上反映疾病的發(fā)生情況。
利用大數(shù)據(jù)技術(shù)從醫(yī)療相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的關(guān)系與模式,幫助醫(yī)院和公共衛(wèi)生部門做出決策已經(jīng)受到關(guān)注。例如, 2009年,Google公司借助大數(shù)據(jù)技術(shù)從用戶的搜索行為中預(yù)測了甲型H1N1流感的爆發(fā),比美國疾病控制與預(yù)防中心先一步發(fā)出預(yù)警[6];一些研究根據(jù)用戶在Twitter上的文章構(gòu)建了流感樣病例率的預(yù)測模型,取得了較準(zhǔn)確的結(jié)果[7]。這表明大數(shù)據(jù)可以幫助預(yù)測疾病(尤其是流行病)的爆發(fā)趨勢,然而,這一領(lǐng)域的研究存在以下問題。
(1)數(shù)據(jù)的隱私保護(hù)
不管是用戶的搜索行為、社交網(wǎng)絡(luò)的言論,還是醫(yī)院或?qū)嶒?yàn)室的醫(yī)療數(shù)據(jù),都涉及用戶隱私,如何在保護(hù)隱私的前提下對數(shù)據(jù)進(jìn)行分析與挖掘是一大挑戰(zhàn)。
(2)數(shù)據(jù)的規(guī)模
數(shù)據(jù)是大數(shù)據(jù)分析技術(shù)的基礎(chǔ),在需要用戶授權(quán)的情況下,目前往往只能收集到少量的用戶行為數(shù)據(jù),無法得到具有普遍性的結(jié)論。
(3)就診量的波動性
特定科室的就醫(yī)人數(shù)聚合了多種疾病的發(fā)病率信息,就醫(yī)人數(shù)與氣候指標(biāo)間未必存在直接相關(guān)性,如何給出合理的預(yù)測預(yù)警是需要考慮的問題。
不同于現(xiàn)有的研究,本文利用反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)對就診量進(jìn)行預(yù)測,數(shù)據(jù)準(zhǔn)確且規(guī)模大;通過對特定科室的就醫(yī)人數(shù)進(jìn)行預(yù)測,間接預(yù)測了特定類型疾病的發(fā)生發(fā)展情況,避免了對涉及隱私的病人發(fā)病情況的收集;并且側(cè)重于預(yù)測就醫(yī)人數(shù)的突發(fā),建立就醫(yī)人數(shù)突發(fā)的預(yù)警模型。
2 ?基于環(huán)境氣象因素的就診量預(yù)測模型
環(huán)境氣象因素與一些特定疾病的發(fā)生息息相關(guān),尤其是流行病和小兒疾病。當(dāng)前,反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)可以被準(zhǔn)確全面地記錄和整理。因此,通過環(huán)境氣象因素來對就診量進(jìn)行預(yù)測,是一個合理的選擇。本文用到的環(huán)境因素包括兩類:氣溫和大氣污染物。氣溫因素包括3個指標(biāo):最高氣溫、最低氣溫和平均氣溫;大氣污染指標(biāo)包括PM2.5、SO2、NO2、CO。
由于環(huán)境因素并不是就診量變化的唯一因素,因此直接對就診量的數(shù)值進(jìn)行預(yù)測是不合適的。本文試圖對就醫(yī)人數(shù)的異常情況建模,即預(yù)測就診量的環(huán)比變化情況。比如,預(yù)測當(dāng)天的就醫(yī)人數(shù)相對前幾天是平穩(wěn)的還是突變的。因此,預(yù)測模型是一個分類模型。筆者選擇隨機(jī)森林[8]作為分類器。
將氣溫因素和污染物因素及醫(yī)院傳染科平均就醫(yī)人數(shù)作為模型的特征,建立就醫(yī)人數(shù)與環(huán)境特征間的隨機(jī)森林分類器,實(shí)現(xiàn)對就醫(yī)突變情況預(yù)測。具體如下。
選擇溫度、PM2.5、SO2、NO2、CO指標(biāo)和平均就醫(yī)人數(shù)作為模型的特征,并假定各特征之間相互獨(dú)立。變量Tt=<Tmin,t,Tmax,t,Tmean,t>表示日期t當(dāng)天的最高氣溫、最低氣溫和平均氣溫。考慮就醫(yī)人數(shù)與溫度的時滯效應(yīng),選擇預(yù)測日期前N天(不含當(dāng)日)的溫度變化作為特征,分別計算N天平均溫度T?NT^N、(N+1)天內(nèi)最大溫差Dev(TN),其中:
對PM2.5、SO2、NO2、CO指標(biāo)做同樣的處理,形成污染物的特征P?NP^N、S?NS^N、N?NN^N、C?NC^N,表示N天內(nèi)PM2.5的平均值。V?NV^N 表示經(jīng)過標(biāo)準(zhǔn)化后的前N天的平均就醫(yī)人數(shù)(不含當(dāng)日)。因此模型的特征集表示為:
對就醫(yī)人數(shù)的異常情況建模,異常情況是指環(huán)比變化情況。模型的目標(biāo)變量應(yīng)該反映預(yù)測當(dāng)天的就醫(yī)人數(shù)的突變情況,假定閾值α>0,β<0,G=(Vt?V?)/std(Vt)G=(Vt?V^)/std(Vt),當(dāng)G>α?xí)r,判定就醫(yī)人數(shù)突增,當(dāng)G<β時,判定就醫(yī)人數(shù)突減,即當(dāng)標(biāo)準(zhǔn)化后的就醫(yī)人數(shù)偏離超過均值的α或β倍標(biāo)準(zhǔn)差時判定為就醫(yī)人數(shù)突增或突減,見表1。
表1? 判定就醫(yī)異常情況
其中,將L(Y)作為標(biāo)簽,特征集F中,,V?MV^M的取值為連續(xù)變量,L為類別標(biāo)簽。
本文在訓(xùn)練樣本集上構(gòu)造了10棵決策樹組合的隨機(jī)森林分類器。
3 ?實(shí)驗(yàn)分析
(1)數(shù)據(jù)集
模型涉及多源數(shù)據(jù)集,包括大氣污染物監(jiān)測數(shù)據(jù)、氣溫數(shù)據(jù)和就醫(yī)人數(shù)的數(shù)據(jù),下面以某市為例進(jìn)行說明。
● 大氣污染物監(jiān)測數(shù)據(jù)來源于國家氣象中心,包括該市2013年1月1日—2014年11月30日的大氣SO2、NO2、CO、PM2.5污染物濃度。
● 氣溫數(shù)據(jù)為國家氣象信息中心提供的2013年1月1日—2014年11月30日該市氣象站每日常規(guī)連續(xù)監(jiān)測數(shù)據(jù),包括最高氣溫、最低氣溫和平均氣溫。
● 就醫(yī)數(shù)據(jù)是2013年1月1日—2014年11月30日該市某兒童醫(yī)院傳染科科室就醫(yī)人數(shù)每日變化數(shù)據(jù)。
上述3個數(shù)據(jù)集描述性統(tǒng)計結(jié)果見表2。
表2? 描述性統(tǒng)計結(jié)果
(2)環(huán)境氣象與就診人數(shù)趨勢相關(guān)性分析
圖1為該市PM2.5濃度的日平均值,為每日連續(xù)監(jiān)測數(shù)據(jù),可見濃度在冬季(2013年12月—2014年2月)達(dá)到當(dāng)年最高值,春季次之,夏季(2014年9月—2014年10月)最低。污染物取值大于零,對污染物水平取對數(shù)發(fā)現(xiàn),其對數(shù)取值滿足正態(tài)分布。圖2、圖3、圖4是該市大氣污染因子SO2、NO2、CO的連續(xù)分布圖,類似的,污染物在冬季(2013年12月—2014年2月)達(dá)到當(dāng)年最高值,春季次之,夏季(2014年9月—2014年10月)最低。
圖1 ?2013年1月1日—2014年11月30日某市PM2.5濃度隨時間變化的趨勢
圖2 ?2013年1月1日—2014年11月30日某市SO2濃度隨時間變化的趨勢
圖3 ?2013年1月1日—2014年11月30日某市NO2濃度隨時間變化的趨勢
圖4 ?2013年1月1日—2014年11月30日某市CO濃度隨時間變化的趨勢
如圖5所示,該市日氣溫變化具有明顯的時間規(guī)律性,高峰值出現(xiàn)在夏季的8月,低峰值出現(xiàn)在冬季的1月。
圖5 ?2013年1月1日—2014年11月30日某市氣溫隨時間變化的趨勢
傳染科就診人數(shù)變化趨勢如圖6所示,具有明顯的周期性,其高峰值出現(xiàn)在初夏(6月—7月),8月—9月為次低谷,低峰值出現(xiàn)在深冬(1月—2月)。初夏之際,氣溫驟升,適合細(xì)菌繁殖,因此傳染科的就診量最高。而在1月—2月,氣溫是一年中最低的,不利于細(xì)菌的繁殖,就診量也就相對較低。
圖6 ?2013年1月1日—2014年11月30日某市兒童醫(yī)院傳染科就診人數(shù)變化趨勢
(3)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)以該市2013年1月1日—2014年11月30日氣溫數(shù)據(jù),PM2.5、SO2、NO2、CO大氣污染濃度和該市兒童醫(yī)院傳染科日就診人數(shù)為基礎(chǔ),構(gòu)造上述特征和標(biāo)簽,對就醫(yī)人數(shù)進(jìn)行了前文所述的標(biāo)準(zhǔn)化處理,并且根據(jù)標(biāo)準(zhǔn)化后的就醫(yī)人數(shù)最多及最少的20%界定。實(shí)驗(yàn)采用隨機(jī)森林作為分類器,以十折交叉驗(yàn)證的方式分別計算分類器在突增、突減以及正常情況下的預(yù)測準(zhǔn)確率。為評估就診人數(shù)隨環(huán)境變化的時滯效應(yīng),研究延遲天數(shù)N從1到7變化時,各情況下的準(zhǔn)確率和召回率,具體情況見表3。
表3? 隨機(jī)森林分類器預(yù)測準(zhǔn)確率及召回率隨延遲變化
實(shí)驗(yàn)結(jié)果表明,在N較小(N=1或N=2)時,分類的準(zhǔn)確率都不高,表明環(huán)境的變化無法在短時間內(nèi)立刻影響到就醫(yī)人數(shù)。隨著N的增大,分類效果逐漸提升,并在延遲4日時效果最好,此后隨時間的增加,分類效果遞減。這表明環(huán)境因素對傳染科就診人數(shù)的影響時滯在4日左右,延遲如果過大,則環(huán)境因素的影響變?nèi)酢?shí)驗(yàn)結(jié)果表明分類模型可取N=4來獲取最好的分類效果。
在延遲設(shè)定為4日(N=4)時,就醫(yī)人數(shù)突增預(yù)測的準(zhǔn)確率為92.8%,召回率為83.5%;就醫(yī)人數(shù)突減預(yù)測的準(zhǔn)確率為87.4%,召回率為92.4%;就醫(yī)人數(shù)沒有明確波動的情況預(yù)測準(zhǔn)確率為80.5%,召回率為78.1%??傮w上看,分類器對正常情況的預(yù)測表現(xiàn)一般,這是因?yàn)榫歪t(yī)人數(shù)受多種因素影響,其他變量的變化也會導(dǎo)致就醫(yī)人數(shù)發(fā)生異常變化,使得結(jié)果不屬于正常情況。可以將其他因素加入分類器中,提高對正常情況的預(yù)測效果。分類器對突增和突減情況的預(yù)測要明顯好于對正常情況的預(yù)測,具有較高的準(zhǔn)確率和召回率,說明從環(huán)境因素預(yù)測就診量的異常波動是有效的。
隨機(jī)森林的分類結(jié)果通過K個決策樹結(jié)果的投票來決定,提升了單個決策樹的分類精度,防止了過擬合的出現(xiàn),是一種比較可靠的分類方法。為了評估 隨機(jī)森林分類效果,本文挑選了6種常用的分類算法(高斯樸素貝葉斯、SVM、K近鄰、決策樹、XGBoost、邏輯回歸)進(jìn)行分類試驗(yàn),并與隨機(jī)森林分算法進(jìn)行對比。結(jié)果見表4。
表4? 各種分類算法進(jìn)行分類試驗(yàn)的結(jié)果
實(shí)驗(yàn)表明各種分類算法在不同情況下各有優(yōu)劣。高斯樸素貝葉斯方法在突增召回率上表現(xiàn)不錯,但是準(zhǔn)確率過低,且對正常情況的預(yù)測效果很差,說明過多地將正常情況判定為了異常情況;SVM和XGBoost在突增上的表現(xiàn)和隨機(jī)森林接近,但在突減上表現(xiàn)略差。K近鄰在各項(xiàng)指標(biāo)上的表現(xiàn)都較差。決策樹的召回率比較好,但準(zhǔn)確率低。邏輯回歸算法在正常情況下的召回率太低。總體來說,隨機(jī)森林的表現(xiàn)要優(yōu)于其他算法。
4 ?結(jié)束語
本文研究分析了分類模型在某兒童醫(yī)院傳染科就診人數(shù)突變的應(yīng)用。抽取待預(yù)測日期前一段時間內(nèi)氣溫、污染物濃度以及就醫(yī)人數(shù)整體水平作為分類模型的特征,利用隨機(jī)森林模型預(yù)測就醫(yī)人數(shù)的異常情況,具有較高的準(zhǔn)確率和召回率。對就醫(yī)人數(shù)的預(yù)測可以輔助醫(yī)院合理安排醫(yī)療人員,亦可為公眾合理安排就醫(yī)時間提供幫助。由于科室就醫(yī)人數(shù)聚合了不同疾病患者的就醫(yī)信息,而不同疾病與外界環(huán)境的關(guān)系不盡相同,科室就醫(yī)人數(shù)與環(huán)境因素間的相關(guān)性在一定程度上被弱化了。為判明特定疾病與環(huán)境因素間的關(guān)系需要收集更精準(zhǔn)的數(shù)據(jù),這是未來要完成的工作。
點(diǎn)擊下方?閱讀原文?即可獲取全文
作 者 簡 介
于廣軍(1970-),男,博士,上海市兒童醫(yī)院研究員、院長,國家衛(wèi)生信息工程技術(shù)研究中心副主任、中國醫(yī)院協(xié)會信息管理專業(yè)委員會常委、上海副主委。2006年開始負(fù)責(zé)具體組織實(shí)施上?!搬t(yī)聯(lián)工程”。2011年、2013年分別獲得上海市科技進(jìn)步獎一等獎、中國醫(yī)院協(xié)會科技創(chuàng)新獎一等獎和國家科技進(jìn)步獎二等獎。
熊贇(1980-),女,博士,復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國家自然科學(xué)基金、上海市科學(xué)技術(shù)工作委員會發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在本領(lǐng)域國際權(quán)威期刊或會議發(fā)表論文40余篇、出版著作3本。目前主要研究方向?yàn)閿?shù)據(jù)科學(xué)和大數(shù)據(jù)。
彭思佳(1995-),女,復(fù)旦大學(xué)化學(xué)系本科生。2015年起進(jìn)行能源相關(guān)催化材料的研究,相關(guān)研究成果在SCI期刊發(fā)表論文3篇。目前主要研究方向?yàn)閿?shù)據(jù)科學(xué)。
阮璐(1992-),女,復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院碩士生,主要研究方向?yàn)楫愘|(zhì)網(wǎng)絡(luò)、網(wǎng)絡(luò)表示學(xué)習(xí)。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的科技期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的基于环境气象因素影响的异常就诊量预测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【2017年第2期】应用驱动的大数据融合
- 下一篇: UCOSIII移植问题说明