贝叶斯网络在疾病预测诊断中的应用与优化
摘要
現(xiàn)今,國(guó)內(nèi)外疫情形勢(shì)依然嚴(yán)峻,新冠疫情已經(jīng)嚴(yán)重影響人們正常的生活,甚至造成了全球經(jīng)濟(jì)的衰退化,疫情對(duì)經(jīng)濟(jì)產(chǎn)生的直接影響,是我們很直觀可以看到、可以感受到的。比如說(shuō)旅游景點(diǎn)關(guān)閉、餐廳不能正常營(yíng)業(yè)、電影院關(guān)門等等。在全民接種疫苗的時(shí)代,新冠肺炎病毒也在不斷的變異,對(duì)人民的生命和財(cái)產(chǎn)安全造成了很大的威脅。貝葉斯網(wǎng)絡(luò)作為問(wèn)題不確定推理的一個(gè)有效手段,它結(jié)合圖論相關(guān)知識(shí)和概率論不僅可以完成問(wèn)題的后驗(yàn)概率推理,還能很清楚地描繪出變量之間存在的依賴關(guān)系,具有很強(qiáng)的應(yīng)用價(jià)值。因此,可以高效的幫助醫(yī)護(hù)人員篩選較大概率患有新冠肺炎的患者。
?? ?本文先以類似新冠肺炎癥狀患者為研究對(duì)象,提出基于貝葉斯網(wǎng)絡(luò)的新冠肺炎檢測(cè)方法 。基于目標(biāo)人群的國(guó)家、年齡、性別、癥狀、等數(shù)據(jù)樣本以及貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),由此建立基于貝葉斯網(wǎng)絡(luò)的疾病預(yù)測(cè)與優(yōu)化預(yù)測(cè)模型 ,通過(guò)構(gòu)建貝葉斯網(wǎng)絡(luò)對(duì)人群患新冠肺炎的概率大小進(jìn)行預(yù)測(cè),以提高管理效率,幫助醫(yī)護(hù)人員判斷那些患者需要重點(diǎn)關(guān)注,降低新冠肺炎傳播帶來(lái)的危害。
關(guān)鍵詞:醫(yī)療診斷、貝葉斯網(wǎng)絡(luò)、新冠肺炎疫情
?
ABSTRACT
Today, the epidemic situation is still grim at home and abroad. COVID-19 has seriously affected people's normal life, and even caused the deterioration of the global economy. The direct impact of the epidemic on the economy is very intuitive to see and feel. For example, tourist attractions are closed, restaurants are not open normally, cinemas are closed, etc. The novel coronavirus pneumonia is also changing constantly in the era of universal vaccination, which poses a great threat to the safety of people's lives and property. As an effective means of problem uncertainty reasoning, Bayesian network combines the relevant knowledge of probability theory and graph theory. It can not only complete the posterior probability reasoning of the problem, but also clearly describe the dependency between variables, which has strong application value. Therefore, novel coronavirus pneumonia patients can be screened efficiently by health care workers.
Novel coronavirus pneumonia patients with novel coronavirus pneumonia were selected as the subjects. Novel coronavirus pneumonia novel coronavirus pneumonia prediction model based on Bayesian network is established based on gender, age, gender, symptom, data and Bayesian network parameters learning. The Bayesian network is used to predict the probability of new crowns pneumonia, so as to improve the management efficiency and help the medical staff to judge the patients' need to focus on the disease and reduce the harm caused by the spread of the new crown pneumonia.
Key words:medical diagnosis; Bayesian netw orks; COVID-19
一、緒論
(一)研究背景
新冠病毒是一種傳染性極強(qiáng)的病毒,主要的傳播途徑是呼吸道飛沫傳播和接觸傳播,因其傳染性極強(qiáng),當(dāng)下全球各地都受到了來(lái)自新冠病毒不同程度上的影響。新冠病毒病發(fā)有著較強(qiáng)的潛伏期,感染新冠后,普通人很難第一時(shí)間察覺(jué),從而會(huì)引發(fā)更多的傳染。當(dāng)前,如何有效診斷新冠肺炎成了亟待解決的問(wèn)題。
(二)目的和意義
傳統(tǒng)的診斷方法是核酸檢測(cè),但是由于新冠病毒具有14天潛伏期,有可能出現(xiàn)核酸檢測(cè)為陰性但實(shí)際上已經(jīng)被感染的情況。CT圖像也是最常見的診斷手段,但這種診斷方式相對(duì)而言比較耗時(shí)耗力,且存在一定的誤診率。本課題的研究目的是通過(guò)貝葉斯網(wǎng)絡(luò),搜集患者近期的一系列狀態(tài)(例如是否到過(guò)高風(fēng)險(xiǎn)區(qū)、是否經(jīng)常吸煙、最近有無(wú)發(fā)燒癥狀等等),通過(guò)這些狀態(tài),可以計(jì)算出患者患新冠肺炎的概率大小,從而幫助醫(yī)護(hù)人員判斷哪些患者是需要重點(diǎn)關(guān)注的。
當(dāng)前新冠疫情仍然在全球流行,并仍將持續(xù)比較長(zhǎng)的時(shí)間,甚至今后還要與我們共存,本課題通過(guò)貝葉斯網(wǎng)絡(luò)提前收集患者的一系列狀況,預(yù)測(cè)該患者患新冠肺炎的概率,從而幫助醫(yī)護(hù)人員劃分出低中高風(fēng)險(xiǎn)的患者,有針對(duì)性地進(jìn)行防患,做到有備無(wú)患,同時(shí)可以及時(shí)的發(fā)現(xiàn)有可能感染新冠的患者,能夠?qū)ζ溥M(jìn)行隔離或一定措施處理。這種診斷相比傳統(tǒng)的CT影像和核酸檢測(cè),具有更快的判斷速度,將患者近期的一系列狀態(tài)輸入網(wǎng)絡(luò)中就可以實(shí)現(xiàn)自動(dòng)檢測(cè),大大減輕了醫(yī)生的工作量。
(三)國(guó)內(nèi)外發(fā)展情況
春柳等人在[1]中提出了一種基于關(guān)聯(lián)規(guī)則的貝葉斯網(wǎng)絡(luò),對(duì)654份河南省新冠肺炎臨床資料進(jìn)行分析,從所有患者表現(xiàn)出的臨床癥候中選出關(guān)聯(lián)較強(qiáng)的癥候群,并分析癥候?qū)υ\斷結(jié)果的貢獻(xiàn)度,以此為基礎(chǔ)建立條件概率表。該研究方向?yàn)榕R床診斷新冠肺炎供給了一種新的思路。張君輝等人在其文獻(xiàn)[2]中闡述了一種基于貝葉斯網(wǎng)絡(luò)的大型油輪上感染新冠高風(fēng)險(xiǎn)人群識(shí)別,以風(fēng)險(xiǎn)程度作為節(jié)點(diǎn)概率表,利用各節(jié)點(diǎn)之間的邏輯關(guān)系確立概率,使用該模型判斷患病高風(fēng)險(xiǎn)人群的預(yù)測(cè)準(zhǔn)確率達(dá)到了81%左右。曹杰等人在其文獻(xiàn)[3]中提出一種新的構(gòu)建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的思路,從搜索評(píng)分的結(jié)構(gòu)分析方法、節(jié)點(diǎn)數(shù)量龐大導(dǎo)致復(fù)雜度高、貝葉斯網(wǎng)絡(luò)的多標(biāo)簽分類方法、去改良貝葉斯網(wǎng)絡(luò)的構(gòu)建以及創(chuàng)新。劉繼等人在其文獻(xiàn)[4]對(duì)新冠疫情的事情特點(diǎn)、關(guān)注度、傳播擴(kuò)散度及網(wǎng)民觀念偏向等方面構(gòu)建網(wǎng)絡(luò)輿情態(tài)勢(shì)評(píng)價(jià)指標(biāo),從而可以有針對(duì)性的對(duì)“新冠肺炎疫情”相關(guān)網(wǎng)絡(luò)輿情管理提出了建議。王慶等人在其文獻(xiàn)[5]針對(duì)我國(guó)抗擊新冠疫情的有效措施構(gòu)建了基于貝葉斯優(yōu)化的模型,分析得出管控后疫情得到有效控制,以此來(lái)幫助國(guó)外疫情,給出一定的指導(dǎo)意義。葛洪磊等人在其文獻(xiàn)[6]針對(duì)我國(guó)以及全球應(yīng)急物資保障體系存在突出短板,應(yīng)用貝葉斯決策分析進(jìn)行應(yīng)急物資配置決策建模,能夠幫助國(guó)家有效的應(yīng)對(duì)此情況做出較為正確的處理。春柳,謝洋等人在其文獻(xiàn)[7]提取證候要素 25個(gè),其中病位證素 12個(gè),以肺、心神(腦)、脾為主;病性證素 13個(gè),以濕、熱(火)、毒、氣虛為主,研究疾病初中后期的病位,從而幫助辨別新否為新冠肺炎,以證候要素為節(jié)點(diǎn)構(gòu)建貝葉斯網(wǎng)絡(luò),通過(guò)患新冠的患者的不同時(shí)期時(shí)出現(xiàn)的癥狀,預(yù)測(cè)患新冠患者處于患病的時(shí)期。高山等人在其文獻(xiàn)[8]闡述了針對(duì)突發(fā)公共衛(wèi)生事件的不確定性通過(guò)貝葉斯網(wǎng)絡(luò)建立模型,以有效的預(yù)防此類突發(fā)衛(wèi)生事件的發(fā)送,以情景狀態(tài)為節(jié)點(diǎn)構(gòu)建模型,有效的得出出現(xiàn)該情景時(shí)需要做出的預(yù)防和措施,是一種很好的處理方式。
一、貝葉斯相關(guān)理論(一)貝葉斯網(wǎng)絡(luò)基本原理1.1貝葉斯網(wǎng)絡(luò)概述貝葉斯網(wǎng)絡(luò)(Bayesian network),又稱信念網(wǎng)絡(luò)(Belief Network),或稱有向無(wú)環(huán)圖模型,是一種概率圖模型,它是一種模擬人類推理過(guò)程中因果關(guān)系的不確定性處理模型,其網(wǎng)絡(luò)拓樸結(jié)構(gòu)是一個(gè)有向無(wú)環(huán)圖(DAG),作為一種數(shù)據(jù)分析和不確定性推理的有效工具,貝葉斯網(wǎng)絡(luò)可助力人們實(shí)現(xiàn)概率統(tǒng)計(jì)在復(fù)雜領(lǐng)域 ?的實(shí)際應(yīng)用,有效解決各種復(fù)雜問(wèn)題[9]貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)一是將多元知識(shí)圖解可視化的一種概率知識(shí)表達(dá)與推理模型,它能夠在眾多數(shù)據(jù)中,做出精準(zhǔn)的預(yù)測(cè),從而不被干擾,所以更能夠接收和理解,二是貝葉斯網(wǎng)絡(luò)可以處理有較大不確定性問(wèn)題的能力,貝葉斯網(wǎng)絡(luò)的條件概率表能夠清晰的表達(dá)個(gè)要素之間的關(guān)系,能夠在不完整,不確定的條件下進(jìn)行訓(xùn)練和學(xué)習(xí),三是貝葉斯網(wǎng)絡(luò)可以有效避免對(duì)數(shù)據(jù)的過(guò)度擬合,貝葉斯網(wǎng)絡(luò)具有堅(jiān)實(shí)的理論基礎(chǔ)和強(qiáng)大的知識(shí)表達(dá)及推理能力,加之模型直觀易懂,被廣泛應(yīng)用于諸多不確定問(wèn)題的處理,如醫(yī)學(xué)病例的診斷、災(zāi)害的風(fēng)險(xiǎn)分析、事故的預(yù)測(cè)等[10]。這些成功的應(yīng)用,充分體現(xiàn)了貝葉斯網(wǎng)絡(luò)是有效處理不完整的數(shù)據(jù)集的充分印證。學(xué)習(xí)能力越來(lái)越強(qiáng),使用范圍不斷擴(kuò)大。隨著機(jī)器學(xué)習(xí)的進(jìn)步,關(guān)于貝葉斯網(wǎng)絡(luò)的研討會(huì)數(shù)量不斷增加,可見貝葉斯網(wǎng)絡(luò)是一個(gè)值得認(rèn)真研究和討論的話題。	這里我們來(lái)舉例說(shuō)明一下表示創(chuàng)業(yè)的貝葉斯網(wǎng)絡(luò)的例子,在這個(gè)貝葉斯模型中包含了3個(gè)關(guān)于創(chuàng)業(yè)品質(zhì)的節(jié)點(diǎn),節(jié)點(diǎn)A表示的事件為有方法,節(jié)點(diǎn)B表示的事件為做事有毅力,節(jié)點(diǎn)C表示創(chuàng)業(yè)是否成功,每個(gè)事件的取值都只有0和1兩個(gè)取值,也就是代表有或者沒(méi)有。	如圖,每一個(gè)節(jié)點(diǎn)都有自己對(duì)應(yīng)的條件概率表,當(dāng)創(chuàng)業(yè)有方法時(shí),成功的概率為0.6,即P(A|C)=0.8,事件A,B都相互獨(dú)立,進(jìn)而可以逐步推導(dǎo)出該網(wǎng) 					 方法 ? ? ? ? ? ? ? ? 毅力
0.70.3
0.70.3
0.70.3 ??
A=1B=00.6A=0B=10.6A=1B=10.9A=0B=00 ? ? 創(chuàng)業(yè) 圖1.1 一個(gè)貝葉斯網(wǎng)絡(luò)的例子絡(luò)的聯(lián)合概率為:P(A, B, C,) = P(A)P(B)P(C | A),可以用過(guò)這個(gè)式子表示出節(jié)點(diǎn)與節(jié)點(diǎn)之間的依賴關(guān)系,貝葉斯網(wǎng)絡(luò)可以通過(guò)圖形模型展示節(jié)點(diǎn)間的因果關(guān)系,因此可以通過(guò)樣本和先驗(yàn)概率模型相結(jié)合,找到節(jié)點(diǎn)之間的依賴,為需要推理預(yù)測(cè)的問(wèn)題加以指導(dǎo)。 ?1.2貝葉斯網(wǎng)絡(luò)的定理要明白貝葉斯網(wǎng)絡(luò)的定理,我們首先需要明白什么是條件概率,以及什么是聯(lián)合概率、全概率、邊緣概率[11],這些相關(guān)概念它們有什么含義,首先,條件概率(后驗(yàn)概率)是事件A給定另一個(gè)事件B的概率。 條件概率表示為P(A | B),讀作“條件B下A的概率”: ?聯(lián)合概率指的是含有多個(gè)條件且這些條件同時(shí)成立的概率,記P=(X=a,X=b),必須要留意的是所有條件在同一時(shí)刻成立,邊緣概率則與聯(lián)合概率與之對(duì)應(yīng),指的是某個(gè)事件產(chǎn)生的概率,即事件A的邊緣概率可以記作P(A),事件B則可記作P(B),如果確定事件A的概率為P(A),則事件B的概率為P(B),當(dāng)事件A出現(xiàn)事件B發(fā)生的概率(A的后驗(yàn)概率)和事件B發(fā)生的情況下事件A的概率(B的后驗(yàn)概率)可以分別表示為P(A|B)和P(B|A),根據(jù)條件概率的定義直接得到貝葉斯方程。即因?yàn)镻(A,B) = P(A)P(B|A) = P(B)P(A|B),所以P根據(jù)條件概率的公式定義可得貝葉斯網(wǎng)絡(luò)公式: ?貝葉斯網(wǎng)絡(luò)是一個(gè)由節(jié)點(diǎn)和有向線段組成,線段則表示兩個(gè)節(jié)點(diǎn)之間的關(guān)聯(lián),線段是有方向的,節(jié)點(diǎn)可以表示變量或事件,所以貝葉斯網(wǎng)絡(luò)是一個(gè)有向無(wú)環(huán)圖,它可以通過(guò)圖形的方式來(lái)表達(dá)變量之間的因果關(guān)系,所以我們可以通過(guò)將先驗(yàn)?zāi)P褪录c我們要訓(xùn)練數(shù)據(jù)相互結(jié)合,來(lái)確定事件之間的依賴關(guān)系,得出有效的預(yù)測(cè)。 (二)貝葉斯網(wǎng)絡(luò)學(xué)習(xí)2.1 ?貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)分為兩類,一是結(jié)構(gòu)學(xué)習(xí),二是參數(shù)學(xué)習(xí),參數(shù)學(xué)習(xí)主要是學(xué)習(xí)節(jié)點(diǎn)的條件概率表,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)確定每個(gè)節(jié)點(diǎn)的參數(shù),我們通常在獲得數(shù)據(jù)的時(shí)候不一定完善,所以對(duì)于數(shù)據(jù)來(lái)書參數(shù)學(xué)習(xí)也分為完備的數(shù)據(jù)參數(shù)學(xué)習(xí)和不完備的數(shù)據(jù)參數(shù)學(xué)習(xí)。完備的數(shù)據(jù)指的是獲得數(shù)據(jù)比較全面,沒(méi)有出現(xiàn)數(shù)據(jù)丟失的情況,不完備的數(shù)據(jù)則是與之相反,當(dāng)一個(gè)數(shù)據(jù)比較完善的情況下,通常采用的貝葉斯方法和最大似然估計(jì)法,他們2個(gè)都要滿足在給定互相獨(dú)立的參數(shù)時(shí)且節(jié)點(diǎn)的條件概率分布相同。采用貝葉斯估計(jì)法對(duì)節(jié)點(diǎn)參數(shù)進(jìn)行估計(jì)的流程可以分為一下幾個(gè)步驟: ?圖2.1 貝葉斯參數(shù)估計(jì)流程2.2 D-分離,簡(jiǎn)單地說(shuō),這是傳統(tǒng)的判斷獨(dú)立性的方法。如果有向圖中的兩個(gè)變量a和b對(duì)于另一組變量c被D分離,則可以在這樣的圖中表示的所有概率分布都與c無(wú)關(guān)。你什么意思?這意味著兩個(gè)變量a和b獨(dú)立c。因此一旦你知道c,即使知道a并不會(huì)給你任何關(guān)于b的更多信息。2.3貝葉斯網(wǎng)絡(luò)管道模型在貝葉斯網(wǎng)絡(luò)信息管道模型中[12][13],節(jié)點(diǎn)被以為是閥門,節(jié)點(diǎn)之間的邊被以為是信息流管道。節(jié)點(diǎn)被認(rèn)為是閥門,節(jié)點(diǎn)之間的邊緣被認(rèn)為是數(shù)據(jù)流通道。碰撞節(jié)點(diǎn)(帶收斂箭頭的節(jié)點(diǎn))代表的閥門關(guān)閉,通信關(guān)閉。顯現(xiàn)后的開放空間。都是由無(wú)碰撞節(jié)點(diǎn)所代表的閥門在實(shí)施時(shí)打開和關(guān)閉。弧線方向的兩個(gè)節(jié)點(diǎn)之間的路徑稱為有向路徑,稱為路徑,不符合該方向的路徑稱為無(wú)方向路徑,稱為鏈接。貝葉斯網(wǎng)絡(luò)有兩條路徑。第一個(gè)是節(jié)點(diǎn)不沖突的路徑,稱為數(shù)據(jù)流可以流動(dòng)的開路。當(dāng)節(jié)點(diǎn)被實(shí)例化時(shí),數(shù)據(jù)流被阻塞。另一個(gè)是包含碰撞的路徑。稱為閉環(huán)的節(jié)點(diǎn)只要在一切碰撞節(jié)點(diǎn)都被實(shí)例化同時(shí)非碰撞節(jié)點(diǎn)沒(méi)有被實(shí)例化的情況下才能遍歷。
?
一、基于貝葉斯網(wǎng)絡(luò)的新冠肺炎預(yù)測(cè)模型的構(gòu)建(一)貝葉斯網(wǎng)絡(luò)建模1.1建模方法貝葉斯網(wǎng)絡(luò)的構(gòu)建過(guò)程中,第一個(gè)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)圖需要確定的,一個(gè)直接表示貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)之間關(guān)系的拓?fù)鋱D。一般來(lái)說(shuō),獲取貝葉斯網(wǎng)絡(luò)圖通常有兩種方法。一種是通過(guò)訓(xùn)練數(shù)據(jù)集獲得,但該方法不僅需要大量數(shù)據(jù)作為支持,否則貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)不可靠。然而,如果在貝葉斯結(jié)構(gòu)的研究中使用大量的數(shù)據(jù)集,事故網(wǎng)絡(luò)的圖隨著事故數(shù)量的增加呈指數(shù)增長(zhǎng),所以根據(jù)情況選擇所需的方法更可靠,也會(huì)更高。第二種方法是利用專家的經(jīng)驗(yàn)和知識(shí)手動(dòng)王城貝葉斯網(wǎng)絡(luò)圖的創(chuàng)建。該方法具有構(gòu)造加單、精度高、易于理解、相關(guān)性強(qiáng)等優(yōu)點(diǎn)。其次,專家經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)模型結(jié)合以上兩種方法,在機(jī)器學(xué)習(xí)建模過(guò)程之中增加經(jīng)驗(yàn),配合完成貝葉斯模型網(wǎng)絡(luò)的構(gòu)建。這種辦法不只提高了貝葉斯網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)中的效率,并且減少了建模過(guò)程中產(chǎn)出的錯(cuò)誤數(shù)目,從而提高了模型的準(zhǔn)確性。這種方法使您可以對(duì)機(jī)器學(xué)習(xí)過(guò)程進(jìn)行一定程度的控制,并為您的系統(tǒng)提供更可預(yù)測(cè)的貝葉斯網(wǎng)絡(luò)。今天,大多數(shù)貝葉斯網(wǎng)絡(luò)模型都使用這種集成方法,并且正在進(jìn)行更多相關(guān)研究。至于是貝葉斯網(wǎng)絡(luò)特定拓?fù)?#xff0c;應(yīng)該指定每個(gè)節(jié)點(diǎn)狀態(tài)中的信息,而對(duì)于節(jié)點(diǎn)無(wú)法確定的狀態(tài),貝葉斯條件概率表務(wù)必傳達(dá)顯示節(jié)點(diǎn)的狀態(tài)。同時(shí),每個(gè)節(jié)點(diǎn)信息的下一個(gè)參數(shù)應(yīng)該使用現(xiàn)有的統(tǒng)計(jì)數(shù)據(jù),通過(guò)訓(xùn)練得到一些條件概率。此外,根據(jù)專家經(jīng)驗(yàn),統(tǒng)計(jì)無(wú)法實(shí)現(xiàn)條件概率。通常的方法是引入直觀的模糊函數(shù)或?qū)<遗袛鄟?lái)進(jìn)行確定概率。條件概率表[49]。目前,使用合適的工具學(xué)習(xí)貝葉斯條件概率表需要大量的相關(guān)數(shù)據(jù),但新冠肺炎數(shù)據(jù)每天不斷擴(kuò)大。例如,得到的條件概率表有不合邏輯的概率。隨機(jī)學(xué)習(xí)是一個(gè)不可避免的錯(cuò)誤。因此,需要利用專家的經(jīng)驗(yàn)優(yōu)化通過(guò)隨機(jī)學(xué)習(xí)獲得的條件概率表。 1.2建模步驟一旦確定了建模方法,就可以按照一定的步驟建立模型。創(chuàng)建貝葉斯網(wǎng)絡(luò)模型通常包括以下幾個(gè)階段進(jìn)行,第一階段:選擇節(jié)點(diǎn)變量并確定模型的預(yù)值。我們需要從模型中選擇一個(gè)可變因素。需要選擇模型的因子變量,即每一個(gè)幾點(diǎn)對(duì)應(yīng)一個(gè)貝葉斯網(wǎng)絡(luò)。選擇變量的相應(yīng)節(jié)點(diǎn)后,必須確定指定變量的值。通常情況下,節(jié)點(diǎn)值應(yīng)該都是離散的,如果節(jié)點(diǎn)變量是連續(xù)變量或特征變量,則應(yīng)該是離散化變量。第二步:建立貝葉斯網(wǎng)絡(luò)確定模型的模型變量后,就可以開始鏈接到貝葉斯網(wǎng)絡(luò)的模型了。一般來(lái)說(shuō),貝葉斯網(wǎng)絡(luò)是通過(guò)先驗(yàn)知識(shí)模型來(lái)研究的,并且測(cè)試數(shù)據(jù)處于良好狀態(tài)。結(jié)構(gòu)學(xué)習(xí)是將鏈接網(wǎng)絡(luò)節(jié)點(diǎn)依照相關(guān)關(guān)系連接起來(lái)構(gòu)成的有向無(wú)環(huán)圖,學(xué)習(xí)結(jié)構(gòu)是通過(guò)連接網(wǎng)絡(luò)節(jié)點(diǎn)的無(wú)環(huán)圖,根據(jù)因果關(guān)系確定學(xué)習(xí)參數(shù),并給出貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)之間的值。通過(guò)研究貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),得到一個(gè)完整的貝葉斯網(wǎng)絡(luò),并用貝葉斯方法計(jì)算預(yù)測(cè)節(jié)點(diǎn)的概率分布。第三步:建立貝葉斯網(wǎng)絡(luò)的邏輯布局,研究整個(gè)貝葉斯網(wǎng)絡(luò),選擇合適的方法進(jìn)行邏輯推理分析。貝葉斯理論是基于網(wǎng)絡(luò)節(jié)點(diǎn)間條件傳移的概率理論,通過(guò)模型分析,可以推導(dǎo)出網(wǎng)絡(luò)節(jié)點(diǎn)中任意變量的概率分布,并對(duì)模型進(jìn)行邏輯論證。通過(guò)三個(gè)主要步驟,就可以構(gòu)建一個(gè)較為完整貝葉斯網(wǎng)絡(luò)模型。通過(guò)上述3個(gè)步驟,我們就可以構(gòu)建基本的貝葉斯網(wǎng)絡(luò)模型,貝葉斯網(wǎng)絡(luò)模型構(gòu)建流程圖如下: ?圖3.1 貝葉斯建模流程 (二)構(gòu)建新冠肺炎檢測(cè)的貝葉斯網(wǎng)絡(luò)模型2.1變量的選擇與處理在目前已有的數(shù)據(jù)基礎(chǔ)上,結(jié)合實(shí)際情況分析,篩選了一部分?jǐn)?shù)據(jù)作為研究變量:	癥狀變量:發(fā)熱、疲憊、干咳、呼吸困難、喉嚨痛、無(wú)癥狀、疼痛、鼻塞、流鼻涕、腹瀉	年齡變量:小孩(0-9歲)、青少年(10-19歲)、青年(20-24)、中年(24-59歲)、老年(60+)	嚴(yán)重程度:輕度、中度、中度本文的新冠肺炎數(shù)據(jù)來(lái)自于世界衛(wèi)生組織(WHO)who.int和印度衛(wèi)生與家庭福利部給出的指南得出的數(shù)據(jù),根據(jù)WHO的定義,COVID-19的主要5種癥狀分別是發(fā)燒、疲倦、呼吸困難、干咳和喉嚨痛,而疼痛、鼻塞、流鼻涕、腹瀉則是數(shù)據(jù)經(jīng)歷其他任何癥狀,嚴(yán)重程度這方面主要是基于新冠的嚴(yán)重程度,這里把它們統(tǒng)一合并成了感染新冠,使用這些分類變量,將變量中的每一個(gè)標(biāo)簽生成一個(gè)組合,因此,數(shù)據(jù)創(chuàng)建了8000個(gè)組合。由于貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)會(huì)將0認(rèn)為是缺失值,所以我們?cè)O(shè)置值的時(shí)候取1開始,由于變量數(shù)據(jù)過(guò)多,本著降低模型復(fù)雜度的原則下,合并了一些數(shù)據(jù)的分支,例如癥狀的嚴(yán)重程度,依據(jù)WHO定制的主要癥狀以及專家學(xué)者的經(jīng)驗(yàn),將各變量的取值表展示,見表3.2.1. ? ? 圖3.2.1感染新冠影響變量 2.2貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)的選取與值的確定通過(guò)我們對(duì)已有變量的選取和確定,在建模的過(guò)程中我們是可以對(duì)已有變量進(jìn)行使用的。我們將新冠肺炎相關(guān)數(shù)據(jù)進(jìn)行了一個(gè)整合處理,構(gòu)成了一個(gè)新的樣本數(shù)據(jù)集,我們這里將數(shù)據(jù)整合成一個(gè)矩陣,行代表新冠肺炎數(shù)據(jù)的個(gè)數(shù),列代表為具體變量的個(gè)數(shù),下面會(huì)展示一部分?jǐn)?shù)據(jù)如圖3.2.2所示,是一個(gè)nxm矩陣。 ?圖3.2.2貝葉斯建模的部分?jǐn)?shù)據(jù) 2.3變量相關(guān)性分析利用spss Statistics對(duì)變量進(jìn)行相關(guān)性分析,相關(guān)代碼展示,以及其中個(gè)變量與決策變量的相關(guān)性分析結(jié)果如圖3.2.3所示。通過(guò)此表可以得出,除年齡在數(shù)據(jù)處理以及學(xué)習(xí)范疇,其他變量對(duì)感染新冠肺炎都有一定的影響,其中與新冠肺炎相關(guān)性較強(qiáng)的變量有發(fā)熱、疲憊、喉嚨痛、干咳、流鼻涕5個(gè)變量,與決策變量與事故嚴(yán)重程度相關(guān)性較弱的是疼痛、呼吸困難、腹瀉、鼻塞、年齡,此處我們需要注意的是雖然年齡、性別兩方面,也有較強(qiáng)相關(guān)性,但是癥狀是第一重要性,在排列完癥狀后,在考慮年齡問(wèn)題。根據(jù)變量和感染新冠的相關(guān)性分析,我們可以將各個(gè)變量從大到小進(jìn)行排列,排序的結(jié)果如下:新冠感染程度:發(fā)熱、流鼻涕、疲憊、喉嚨痛、干咳、疼痛、呼吸困難、腹瀉、鼻塞、年齡、性別。	根據(jù)各變量與感染新冠可能性的相關(guān)性分析,再介個(gè)專家建模經(jīng)驗(yàn)以及先驗(yàn)概率確定節(jié)點(diǎn)的變量順序?yàn)?#xff1b;1-發(fā)熱、2-呼吸困難、3-疲憊、4-喉嚨痛、5-干咳、6-疼痛、7-腹瀉、8-流鼻涕、9-鼻塞、10-age0~9、11-age60+、12-age10~19、13-age20~24、14-age25~59、15-男性、16-女性。確定了網(wǎng)絡(luò)節(jié)點(diǎn)排序后,就可以依據(jù)機(jī)器學(xué)習(xí),進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)模型的建立,本次研究借助了MATLAB軟件,使用了基于MATLAB的工具箱full-BNT,學(xué)習(xí)數(shù)據(jù)集貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),主要的操作流程是,將需要的數(shù)據(jù)集導(dǎo)入MATLAB中,輸入節(jié)點(diǎn)的名稱,將它們進(jìn)行編號(hào)、排序,以及節(jié)點(diǎn)的取值,最后調(diào)用full-BNT工具箱的算法,對(duì)貝葉斯網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí),建立出初步的貝葉斯網(wǎng)絡(luò)模型。代碼見附錄A ?圖3.2.3各變量與事故嚴(yán)重程度的相關(guān)性分析 2.3數(shù)據(jù)預(yù)處理采用SPSS和SPSS Modeler 對(duì)數(shù)據(jù)進(jìn)行挖掘,建立貝葉斯網(wǎng)絡(luò)模型,分析影響感染習(xí)慣肺炎可能性的因素;通過(guò)實(shí)證判別對(duì)其的相關(guān)風(fēng)險(xiǎn),并預(yù)測(cè)將來(lái)潛在感染新冠肺炎病毒的人群。 ? ?2.4模型建立通過(guò)Spss Modeler進(jìn)行操作,具體分為以下幾個(gè)步驟:1.選擇源節(jié)點(diǎn),導(dǎo)入新冠相關(guān)數(shù)據(jù)的Excel表格,表格的內(nèi)容都是已經(jīng)完善的數(shù)據(jù)2.選擇字段選項(xiàng),找到類型,這一步操作主的目的是區(qū)別輸入和輸出字段,同時(shí)點(diǎn)擊讀取值可以讀取數(shù)據(jù)的值.3.建模,建立訓(xùn)練模型,完成貝葉斯網(wǎng)絡(luò)的構(gòu)建4.運(yùn)行基礎(chǔ)的貝葉斯網(wǎng)絡(luò)模型 ? (2.5.1) 2.5預(yù)測(cè)結(jié)果分析從性別可以看出女性感染的概率比男性大,從癥狀來(lái)看,發(fā)熱占到了第一的概率 ? ? ? 二、總結(jié)與展望(一)總結(jié)構(gòu)建貝葉斯網(wǎng)絡(luò)模型主要由建立各個(gè)節(jié)點(diǎn)條件概率的計(jì)算和貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的建立這兩個(gè)部分構(gòu)成,第一,貝葉斯的網(wǎng)絡(luò)結(jié)構(gòu)建立必須大量的數(shù)據(jù)模型進(jìn)行支撐,首先需要獲得新冠肺炎的相關(guān)的一系列數(shù)據(jù),從而得到較優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。第二,如何確定貝葉斯的各個(gè)節(jié)點(diǎn)以及確定節(jié)點(diǎn)與節(jié)點(diǎn)的弧和弧的方向,可以選取一些關(guān)鍵因素,例如年齡、肺部CT 圖、是否往返過(guò)高風(fēng)險(xiǎn)地區(qū)等等作為貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)。第三,需要確定節(jié)點(diǎn)概率表,才能構(gòu)建出完整的貝葉斯網(wǎng)絡(luò)模型。本文通過(guò)新冠數(shù)據(jù)及專家意見調(diào)查,構(gòu)建疾病優(yōu)化與預(yù)測(cè)的貝葉斯網(wǎng)絡(luò)模型,并且以此模型對(duì)新冠肺炎患病的風(fēng)險(xiǎn)進(jìn)行了預(yù)測(cè)計(jì)算,通過(guò)相關(guān)節(jié)點(diǎn)進(jìn)行預(yù)測(cè),可以在一定程度上進(jìn)行患病風(fēng)險(xiǎn)評(píng)估。并借助該模型,對(duì)人們?cè)谕獬鲞^(guò)程中可能遇到的新冠肺炎患者后自己有疑似新冠肺炎癥狀以及自身因數(shù)的15個(gè)重要的風(fēng)險(xiǎn)因子進(jìn)行了患新冠肺炎的等級(jí)劃分。在構(gòu)建模型的同時(shí),也遇到了對(duì)需要處理的數(shù)據(jù)不健全等問(wèn)題,通過(guò)大量找尋數(shù)據(jù)得到了解決,在構(gòu)建貝葉斯模型的時(shí)候,使用了Spss-Modeler,構(gòu)建流模型,對(duì)數(shù)據(jù)類型進(jìn)行了分析,同時(shí)預(yù)測(cè)了變量的重要性,當(dāng)有重要風(fēng)險(xiǎn)因子出現(xiàn)時(shí),應(yīng)該立即采取針對(duì)措施來(lái)規(guī)避或降低風(fēng)險(xiǎn),從而幫助減輕新冠病毒的大量傳播。(二)創(chuàng)新通過(guò)貝葉斯網(wǎng)絡(luò)構(gòu)建疾病預(yù)測(cè)模型在目前在國(guó)內(nèi)是很少有人研究的方向,是一個(gè)新型的研究,貝葉斯網(wǎng)絡(luò)作為一個(gè)可以對(duì)不確定數(shù)據(jù)集以及推理范疇最有效的理論模型之一,應(yīng)對(duì)在我們?cè)谀壳盃顩r下新冠病毒不斷變異的情況下,有著強(qiáng)有力的預(yù)測(cè)水準(zhǔn)。可以高效的幫助醫(yī)護(hù)人員辨別高危人群,早日實(shí)現(xiàn)“動(dòng)態(tài)清零”的目標(biāo)(三)展望本文通過(guò)構(gòu)建貝葉斯網(wǎng)絡(luò)在疾病預(yù)測(cè)和優(yōu)化的模型,成功的構(gòu)建了模型,而且在疾病預(yù)測(cè)方面取得了一定的進(jìn)展,但基于貝葉斯網(wǎng)絡(luò)的模型優(yōu)化,還需要一定的加強(qiáng)。在今后的研究過(guò)程中,需要加強(qiáng)對(duì)大量數(shù)據(jù)進(jìn)行一定的篩選判斷,在實(shí)際的應(yīng)用中,我們很難去獲得那么多完整的數(shù)據(jù),如何從不完整的大量數(shù)據(jù)中建立較為真實(shí)的網(wǎng)絡(luò)結(jié)構(gòu)模型,這是一個(gè)需要加強(qiáng)研究探索的方向。通過(guò)實(shí)際數(shù)據(jù)與專家經(jīng)驗(yàn)的結(jié)合,完善每一個(gè)節(jié)點(diǎn)的概率,加強(qiáng)每一個(gè)節(jié)點(diǎn)的準(zhǔn)確性,同時(shí)發(fā)覺(jué)每一個(gè)節(jié)點(diǎn)的更大用途,總而言之,對(duì)于概率模型以及節(jié)點(diǎn)概率表的改進(jìn),是對(duì)貝葉斯疾病預(yù)測(cè)與優(yōu)化的模型是最直接,最有效的方法
總結(jié)
以上是生活随笔為你收集整理的贝叶斯网络在疾病预测诊断中的应用与优化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: TBS 腾讯浏览服务(X5WebView
- 下一篇: fluent瞬态计算终止条件在哪里设置_