论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation
KDD 2021
0 摘要
????????面對COVID-19的爆發,醫療資源緊缺問題日益突出。因此,迫切需要有效的醫療資源配置策略。
????????強化學習(RL)對于決策制定很強大,但通過強化學習解決這個問題存在三個關鍵挑戰:
(1)現實世界中復雜的情況和無數的決策選擇;
? (2) 由于大流行傳播的潛伏期,只能獲得不完整的信息;
? (3) 在現實世界中進行實驗的局限性,因為我們不能隨意設定大流行的爆發。
????????在本文中,我們提出了一種具有相應訓練算法的分層強化學習方法。
????????我們設計了一個分解的動作空間(decomposed action space)來處理無數的選擇,以確保有效和實時的策略。
????????我們還設計了一個基于循環神經網絡的框架來利用從環境中獲得的不完整信息。
????????我們建立了一個基于真實世界數據的流行病傳播模擬器,作為實驗平臺。???????
????????我們進行了廣泛的實驗,結果表明我們的方法優于所有基線,平均減少了 14.25% 的感染和死亡。
1 introduction
????????本文主要考慮的是兩種醫療資源:醫院病床和醫用口罩。
????????長期以來,公共衛生研究人員一直在研究醫療資源配置問題。
????????已經提出并采用了基于個人特征(例如年齡、職業或癥狀嚴重程度)的策略。
????????其他指導方針,包括挽救最多生命或挽救最多生命年闡明了最終目標,但將此類高級目標轉化為實際策略并非易事。
???????? 另一方面,用于大流行干預的機器學習也早已被研究,包括關于有效隔離策略的工作?等。
????????然而,專注于用AI解決醫療資源分配問題的方法,尤其是使用強化學習的方法,仍然未被開發。
? ? ? ? 對于使用強化學習的方法進行醫療資源分配,有三個主要的挑戰:
? ? ? ? (1)現實世界場景中的醫療資源分配意味著無數種決策選擇,即過大的決策空間。這會導致設計和訓練 RL? agent的困難。 ?
? ? ? ? (2)由于流行病傳播的潛伏性,我們無法準確描述流行病的整體感染情況,只能獲得不完整的信息,這增加了決策的難度。
? ? ? ? (3)由于我們無法在現實世界中任意設置大流行病的爆發,因此無法在現實世界大流行病傳染過程中訓練和測試 RL agent。這會導致實驗的進行受到限制。
? ? ? ? 本文提出了層次化強化學習模型?(hierarchical reinforcement learning method),這個模型解決了上面說的三點挑戰:
? ? ? ? 解決挑戰(1):為了解決過大決策空間的困難,我們為 RL agent設計了一個分解的動作空間(decomposed action space)。它能夠在現實世界范圍內的復雜情況下生成有效的策略。 同時,我們設計了相應的訓練算法,確保了RL agent得以高效訓練。
? ? ? ? 解決挑戰(2):為了解決不完善信息帶來的困難,我們設計了一個基于門控循環單元GRU的框架來利用不完善信息。 通過從環境中獲得的不完整信息重建流行病傳播情況的完整信息,它為 RL agent做出決策提供了依據,這對性能有很大貢獻.
? ? ? ? 解決挑戰(3):我們建立了一個基于疾病模型和現實世界數據的大流行傳播模擬器,結果證明它可以精確地模擬現實世界的情況,并且可以很好地作為我們的實驗平臺。
我們的主要貢獻可以總結如下:
? 我們提出了一種具有分解動作空間的分層強化學習方法,以及相應的訓練算法。 由于我們的優化設計,訓練過程實現了高效,同時在現實世界范圍內提供了有效和實時的策略。
? 我們提出了一個不完整信息的利用框架,從而在信息不完整的情況下取得了良好的性能,接近現實世界。
? 我們設計了一個基于真實世界數據和疾病模型的大流行病傳播模擬器。 我們根據真實世界情況證明其準確性,在此基礎上我們使用模擬器作為實驗平臺。 我們在不同環境下的兩個城市進行了廣泛的實驗,結果表明我們的方法比所有基線平均高出 14.25%。
?2 preliminary
2.1 疾病模型
在SEIR的基礎上,本文提出了一個八狀態模型:
| S | 易感人群 (Susceptible),指未得病者,但缺乏免疫能力,與感染者接觸后容易受到感染 |
| E | 暴露人群 (Exposed),指接觸過感染者,但暫無能力傳染給其他人的人,對潛伏期長的傳染病適用 |
| Iu | 已經感染疾病,但是沒有檢測的人。這些人的出行不受任何限制 |
| It | 已經感染疾病,同時被檢測出疾病的人。這些人的出行被限制在某一個區域內 |
| Ia | 已經感染疾病,但是疾病監測沒有檢測出陽性的人 |
| Ih | 被送醫治療的感染者 |
| R | 康復人群(recovered) |
| D | 死亡人群(dead) |
圖1展示了本文的SEIR模型中各狀態之間的轉化情況
| β | 每一個感染狀態的人(Iu+It+Ia+Ih),在單位時間內,通過和S狀態的人之間的交互(I-S contact),導致的E狀態人的增加數量——>這個衡量了疾病的傳染情況 |
| 每一個E狀態的人,在單位時間內,通過和S狀態的人之間的交互(E-S contact),導致的E狀態人的增加數量 | |
| ε | 每一個E狀態的人,在單位時間內,變成各個I狀態的人的概率 |
| α | 每一個I狀態的人,在單位時間內,變成各個D狀態的人的概率 |
| μ | 每一個I狀態的人,在單位時間內,變成各個R狀態的人的概率 |
?2.2 醫療資源
本文主要考慮兩種醫療資源:床位和醫用口罩
我們研究一個有N人口的城市,其中我們根據路網結構劃分成M個區域(每個區域的人口是)
我們同時定義了以下的表示
| Total Bed Number | 所有醫院可以提供的床位總和 | |
| Available Bed Number | 在時刻t,可用的床位的數量 | |
| Total Mask Number | 我們假設每一個人每天消耗一個醫用口罩 是每天一個城市醫用口罩的供應量? | |
| Remaining Mask Number | 在時刻t,剩余可用的醫用口罩 | |
| γ | Mask Efficacy Factor | 醫用口罩有效過濾病毒的比例 |
| mask coverage percentage | 口罩覆蓋率 |
即疾病原始的感染率為β0
那么如果有口罩之后,各個區域在時刻t的實際感染率為:
表示戴了口罩,同時口罩有效過濾病毒的比例,這一部分是可以抵御病毒的比例
?2.3 問題描述
? ? ? ? 我們考慮醫療資源極度短缺的情況。在時刻t,當小于人們所需要的口罩數,小于醫院需要的床位數。我們需要找到實時最高效的對M個區域的分配方案,這種分配方案可以有最少的損失。
? ? ? ? 經過T天的傳播之后,流行病帶來的損失可以由以下四種評估方式評定:
| 累計感染人數 | 在T天內,所有被感染過的人(包括死亡、康復和現在仍然在感染狀態的人 |
| 累計死亡人數 | 在T天內,所有死亡人數 |
| 最大日增感染人數 | 在T天內,日增感染人數的最大值 |
| 最大日增死亡人數 | 在T天內,日增死亡人數的最大值 |
?????????前面的兩個衡量了疾病的嚴重程度,后兩個衡量了基本的傳播速度
2.3.1 醫療資源分配問題定義
? ? ? ? 在時刻T,給定一個由M塊區域的城市,每塊區域由人口組成。給定時刻t,可用的床位的數量和時刻t,剩余可用的醫用口罩,以及目前的傳染病傳播情況,我們的目標是最小化疾病造成的損失,找到每個區域最佳的病床和醫用口罩的分配策略和,其中分配方案滿足
? ? ? ? 根據2.2的描述,我們可以計算時刻t,某一區域i的實際感染率:
?
3 方法
3.1 系統全覽
?整個模型由兩部分組成:
1,不完全信息的使用:從環境中的不完全信息中重構完整信息
2,層次化強化學習模型:從第一步重構的完整信息中找到實時策略
代碼部分:?https://github.com/KYHKL-Q/Hierarchical-RL
?3.2 不完全信息的使用
?3.2.1 疾病傳播信息的定義
????????在一個有M塊區域的城市中,某一個疾病狀態X(X在這幾個狀態中)是一個M維的向量,我們記為
????????表示在區域i中,狀態為X的人的數量?
3.2.2 模型介紹
? ? ? ? 在現實問題中,或者所有這8個狀態的疾病傳播信息是很難的。換言之,我們有的都是不完全的信息。
? ? ? ? 根據實際的情況,我們可以獲得類似于It(已經感染疾病,同時被檢測出疾病的人。),Ih(被送醫治療的感染者),D(死亡人數)的疾病傳播信息;
????????但是像S(易感人群)、E(暴露人群)和Iu(已經感染疾病,但是沒有檢測的人。)的疾病傳播信息則不太好求得。
????????R狀態(康復人群)也不太好求得,因為有些只有輕微癥狀的人在尚未被檢測陽性或者送醫之前,在家里就已經康復了。
? ? ? ? 在現實世界中,S狀態(易感人群)的人占多數,與此同時Ia狀態(已經感染疾病,但是疾病監測沒有檢測出陽性的人)的人則很少。
? ? ? ? 因此,我們可以這么認為:除了狀態S狀態(易感人群)和Ia狀態(已經感染疾病,但是疾病監測沒有檢測出陽性的人)之外,E(暴露人群)、Iu(已經感染疾病,但是沒有檢測的人。)、It(已經感染疾病,同時被檢測出疾病的人。)、Ih(被送醫治療的感染者)、R(康復人群)和D(死亡人群)有著很廣泛的波動范圍,這幾個狀態的疾病傳播信息可以很好地反映疾病的整體情況。這幾個狀態在幫助RL agent制定決策的時候起著很大的作用。
? ? ? ? 因此,不完整信息使用的目標是:通過可以觀測得到的狀態It,Ih和D,推測未知的狀態E,Iu和R的情況。
? ? ? ? 我們利用GRU建模時間序列的能力,來進行信息的重構。
?
? ? ? ? (注:這張圖有問題,第三個應該是Ih)
? ? ? ? GRU-RNN模型整體由三個分支組成,每個分支由1024個GRU組成,同時用Tanh作為激活函數。(三個分支是一個狀態對一個呢?還是三個對三個呢?看完代碼我再補上)
? ? ? ? 在每個分支的末尾,我們同時設計了一個1024*M(M是區域的數量)的全連接層。以便于將GRU中的隱層狀態投影到最終的輸出上。
? ? ? ? 由于輸入和輸出都是在特定區域,特定狀態的人群的數量,這個數字是很大的,經過Tanh激活之后可能區別不大。于是我們在輸入之后,輸出之前分別研究了一個1:1000的縮放層,將數值放縮至一個合理的范圍。
? ? ? ? 我們使用BPTT和Adam來進行訓練,獲得了很好的收斂結果。
3.3?分層強化學習
3.3.1 決策空間分解
????????典型RL方法在解決醫療資源配置問題時面臨的一個巨大挑戰是現實情況下面臨的過大的行動空間。
????????一個城市通常有數百個地區(地區數記為M),有各種各樣的醫療資源可供分配(資源種類的數量記為𝐾)。
????????因此,輸出策略應該是一個形狀為𝑀×𝐾的矩陣,它位于一個高維空間,導致一個非常大的行動空間。
????????此外,各要素之間存在約束:各類醫療資源的總可用量是固定的,這增加了RL agent做出正確決策的難度。
????????為了解決這個問題,我們設計了一個分解的行動空間來進行決策,而不是直接給出上面描述的矩陣。
????????對各類醫療資源,首先給出各地區的顯著性排序。
????????我們設計了若干排序原則,包括根據感染人數、人口密度、區域人口流動強度及其組合進行排序。
????????決策的第一步是選擇一個排序原則,該原則位于一個離散的行動空間,并給出顯著性排序。
????????
????????第二步是給出一個滿足因子,一個介于0和1之間的浮點數,記為f。
????????在醫療資源配置的過程中,我們按照給定的顯著性等級來考慮區域。我們用𝑈𝑖表示𝑖地區需要的某一種醫療資源的數量,將這類醫療資源的𝑓×𝑈𝑖分配給該地區,然后再轉到下一個地區,即只滿足其需求的𝑓。(并不一定排序在前面的f就一定大)
????????當沒有更多的醫療資源時,分配過程就結束了。
????????因此,決策的第二部分是給出浮點數,因此它位于一個連續的動作空間中
????????我們將決策過程分解為兩個步驟,將超大的行動空間分解為相對較小的離散和連續兩個步驟,使得RL agent能夠做出有效的決策。
此外,有兩件事值得一提:
?????????在不同種類的醫療資源中,離散行動和連續行動都是獨立的,即不同種類的醫療資源可以根據不同的顯著性排名和滿意度因子進行配置。
?????????每種醫療資源的離散和連續行動都隨時間而變化,即實時策略。這兩點確保了行動有足夠的自由度,從而保持了無數的可能性,從而有可能實現最大限度地減少該流行病造成的損害的目標。
3.2.2 獎勵函數
????????在RL 訓練中,我們使用一個特別設計的獎勵函數來衡量流行病傳播情況的嚴重性。
????????我們用𝑠𝑖表示在𝑖時間步后的流行病傳播情況。
????????表示在狀態si的時候,各個區域狀態為X的人的總數
? ? ? ? ?于是,我們定義時間片i的單步獎勵函數
?????????
? 其中:
C是一個常數
E是暴露人群
論文里是寫的Iut,但我個人覺得這邊應該是Iu
Iu+It表達的是感染了但是沒有檢測的人+感染了同時檢測出陽性的人
????????當?時,也就是沒有新增的時候 reward 最大,為C;只要有新增,那么括號里面的內容就會小于1,那么reward就會小于C
? ? ? ? 我們同時定義了長期的獎勵函數Fi?
????????
?表示未來獎勵的折現因子?
? ? ? ? 在有限步的問題中,求和運算可以在一個特定的時間節點終止
3.3.3 網絡結構
????????在離散動作空間中(前面的第一步,算排序),每一種醫療資源使用一個DQN;
DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客
????????在連續動作空間中(前面的第二步,算f值),每一種醫療資源使用一對Actor-Critic網絡
強化學習筆記:Actor-critic_UQI-LIUWJ的博客-CSDN博客
?????????這些網絡的詳細結構如圖4所示,張量的形狀隨著研究城市區域數量的變化而變化。
?????????所有網絡都使用Leaky-ReLU作為激活函數。
????????DQN采用流行病傳播情況的重建信息,并對每個排序原則給出估計的長期回報,同時選擇回報最高的原則進入實時策略。
????????連續動作空間中的actor網絡接受重建的信息,并給出最佳的滿意度因子(f)【即action】。
????????為了確保滿足因子限制在0到1之間,我們在網絡的末端設置一個Sigmoid-Clip層,如下所示:
????????
?????????其中𝛿為手動設置的滿意度因子下界,可近似設置為該城市醫療資源總量除以人口規模。
?????????連續行動空間中的critic網絡(critic network)只作用于訓練過程。
????????它吸收環境信息和actor網絡給出的滿意度因子,輸出給定滿意因子的估計長期獎勵。
? ? ? ? 換句話說,critic network通過policy gradient對actor network進行有監督訓練。
?????????特別地,我們在輸入流行病傳播信息后立即設計重新排序層,使輸入載體中的元素進行交換。
????????這些層的作用是最大化相鄰元素之間的關聯度,從而有利于卷積層提取特征。(卷積層時DQN還是actor-critic在用?看完代碼補充)
????????關聯度是通過相應區域之間的人口流動強度來衡量的(定義見章節4.1)。
????????我們將輸入向量中的𝑀個元素表示為𝑉𝑖,𝑖= 1,2,…𝑀并使用𝐶(𝑖𝑗) 𝑖≠𝑗之間的關系程度𝑉𝑖和𝑉𝑗
????????因此,問題可以表述為:
? ? ? ? ?可以證明問題2和TSP (NP完全問題)是等價的,因此沒有多項式時間來精確地計算之。
????????我們使用隨機方法搜索1億個可能的重排序序列(𝑀!總可能性),并選擇最好的一個。雖然不是很精確,但我們得到了一個足夠好的解決方案,以滿足卷積特征提取的需要。
3.4 訓練算法?
????????現有的研究主要集中在離散動作空間和連續動作空間中訓練RL agent的算法上。
????????然而,在我們的分解動作空間設計中,需要一種算法來訓練一個RL agent同時在連續和離散動作空間中執行動作,這一點一直未被探索。
????????我們通過對廣泛應用的DQN訓練算法和DDPG算法進行改進,提出了一種新的算法。
????????我們復制每個網絡生成相應的目標網絡,并在訓練過程中對網絡進行軟替換?soft replacement。
????????我們在訓練中也采用經驗重播 experience replay。
????????值得一提的是,該算法可用于訓練具有任意𝐷個離散動作和任意𝐶個連續動作的RL agent。
????????在本篇文論中,我們考慮兩種醫療資源,所以此時𝐶=𝐷= 2?
? ? ? ? 我們使用?來表示參數為的DQN;
????????使用表示參數為的連續actor網絡 。
? ? ? ? 使用表示參數為的連續critic網絡
? ? ? ? 其中
? ? ? ? 其中代表了對應的目標網絡。
????????
? ? ? ? 我們使用表示時刻t的離散動作,用表示時刻t的連續動作
? ? ? ? ?表示時刻t的流行病傳播信息
????????表示時刻t的reward?
?????????當使用來自經驗重放緩沖區的𝑁樣本的mini-batch處理來更新權重時,記為
?????????
(在狀態時,如果我們采取離散動作以及連續動作,那么我們會得到獎勵,進入后續的狀態)
?我們使用如下方式計算loss
(總的reward,DQN和actor-critic分別的reward)
使用TD的方式進行更新
??
?4 實驗部分
4.1 流行病傳播模擬
????????由于我們不能任意地在現實世界中設定大流行爆發,因此訓練一個RL agent在現實世界大流行傳播中檢驗我們的方法是不現實的。因此,我們設計了一個傳染病傳播模擬器,包括疾病模型和人口流動模型。
????????我們采用2.1節中提到的COVID-19的八狀態疾病模型,同時使用醫學研究中描述COVID-19特征的參數[7,8,10,16,28],以保證疾病建模的真實性。
????????如3.1節所述,我們根據道路網絡將城市劃分為𝑀區域,這些區域很好地匹配了城市中的現實世界功能區。
????????該城市的總人口規模(記為𝑁)可在政府的官方網站上查詢。
????????人口流動建模是基于真實世界的流動數據,通過與互聯網服務提供商合作,收集用戶訪問基于位置的服務的GPS坐標。
????????考慮到隱私保護,我們消除了用戶的詳細信息,并保持以下數據:
- 時刻𝑡從地區𝑖到地區𝑗的用戶數量。
- 時刻t在地區i的總用戶人數
????????我們收集了北京和上海兩個城市的數據,詳細信息如表1所示。注意,在北京,我們只考慮市中心地區,稍后簡稱為Beijing。
????????我們計算在時間維度上的平均值,得到𝑖區域內的平均用戶數(表示為)。
????????然后,我們通過比較𝑁和各區域,來估計各區域內的人口規模,因為某一區域內互聯網服務用戶的空間分布與整體人口分布相似。(按照各區域的比例分配N)
????????因此,𝑖地區的人口密度也是可求得的,通過計算該地區的面積。
???????我們可以通過和的比率來估計人口流動強度,即從區域𝑖在時間𝑡前往區域𝑗的可能性,記為。 請注意,由于早晚、工作日和周末之間的人口流動性不同而隨時間變化。
????????模擬過程如算法 2 所示,其中每個時間步長為 30 分鐘,以提供高時間分辨率的結果。
?????????我們評估我們實施的模擬器的精度,確保它作為實驗平臺表現良好。
???????? 我們在北京市中心進行了為期 2 周的模擬,然后將結果與 2020 年 6 月北京新發地疫情爆發期間的官方報告 1進行了比較。
????????考慮到模擬的隨機性和模擬中的平均感染病例數,我們進行了 10 次模擬 在圖 5 中與現實世界中的情況一起繪制。
????????結果顯示,模擬和現實世界情況之間的決定系數 = 0.984。 它表明模擬器可以精確地模擬現實世界的情況,這可以支持我們的分層強化學習方法的評估。
?4.2 實驗配置
????????為了全面檢查我們的方法的性能,我們設計了三個實驗,在兩個城市的各種初始感染情況下進行。 設置如表 2 所示,在每個實驗中,𝐼0 初始感染病例平均分布到 𝐾個 初始區域。
???????? 我們模擬了四個月(120天)的疫情傳播過程,在此期間,我們將前兩個月設置為自由傳播期,后兩個月采取應對措施。
???????? 我們每 24 小時調整一次實時策略,并將兩個城市為治療 COVID-19 患者 ?配備的病床總數𝑁𝐵設置為 10000。
????????我們設置了兩個城市的每日外科口罩供應數量 ( 𝑁𝑀 ) 略低于人口規模的 10%,這勾勒出醫療資源稀缺的情況。
????????我們將口罩功效因子 𝛾 固定為 0.9,這是外科口罩的典型值 [3]。
?
????????實驗 1 和 2 之間的對比顯示了聚集爆發和分散爆發之間的差異,而實驗 1 和 3 之間的對比涵蓋了完全不同城市的情況。
4.3 對比試驗
????????我們將我們的方法與幾個bbseline進行比較,包括公共衛生領域的專家解決方案和基于 RL 的方法。
????????專家解決方案包括:
? 無醫療:未分配醫療資源的情況,作為空白對照組。
? 專家嚴重性[1]:根據大流行傳播的嚴重性順序分配醫療資源。 感染病例較多的地區具有絕對優先權。 ?
? 專家人口[9]:根據人口密度分配醫療資源。 人口密度較高的地區具有絕對優先權。
????????強化學習方法以及強化學習與專家解決方案的結合如下:
? DQN Greedy:一種非分層強化學習方法,應用一個 DQN 來選擇每種醫療資源的重要性排序原則。 排名較高的地區具有絕對優先權。
? DQN 專家[5]:DQN 和專家解決方案的組合。 公共衛生研究表明,如果口罩覆蓋率達到大約 86%,則可以有效控制 COVID-19 的大流行。 因此,DQN 用于選擇外科口罩的排名原則,而滿意度因子固定為 0.86。 對醫院病床的操作與 DQN Greedy相同。
????????這些baseline 方法涵蓋了公共衛生研究中的權威專家解決方案和典型的 RL 解決方案。 此外,通過結合 RL 和專家解決方案,最后一個基線優于前一個基線,結果證明是最強的。
4.4 主要結果和分析
????????我們基于模擬器評估訓練好的模型。?考慮到隨機性,我們將所有模擬重復 10 次。
???????? 首先,我們考慮完美的信息情況,我們的方法直接從環境中獲取所有 8 個狀態的精確疾病傳播信息,而無需重建信息,基線方法也是如此。
???????? 由第 2.3 節中定義的四個指標測量的結果(越低越好)如表 3 所示,其中我們將指標值除以人口規模,括號中顯示了 10 次模擬中的標準偏差。
????????事實證明,我們的方法在所有 3 個實驗中都優于所有基線方法。
??
????????然后我們研究了信息不完善的情況,我們僅使用 3 個狀態【It(已經感染疾病,同時被檢測出疾病的人。)、Ih(被送醫治療的感染者)和𝐷(死亡人數)】的信息來訓練基于 DQN 的基線,并且由于缺乏感染病例的信息,專家嚴重性無法發揮作用。
????????我們的方法通過信息重建工作,在不完善的信息中利用框架中RNN層數的影響如圖6所示。準確率是相對誤差小于30%的輸出值的百分比。
???????? 我們注意到,在北京和上海的情況下,由于使用超過 4 層的過擬合,準確率沒有明顯的提高甚至下降,而隨著層數的增加,訓練時間大大增加。 因此,我們使用 4 個 RNN 層,足夠用于信息重建,同時可以兼顧到有效性和準確性。
????????
?以相同指標衡量的最終結果如表 4 所示。
????????圖 7 顯示了我們的方法和基線之間的比較。 我們將最強基線(DQN 專家)的性能標準化為 1.0,并通過所有 4 個指標的平均值計算大流行造成的相對損害。
????????
????????所有結果證明,我們的方法可以提供更有效的實時醫療資源分配策略,大大減少了大流行造成的損失。
????????在數量上,與最強基線相比,在完美信息情況下的平均性能增益為 11.00%,而在不完美信息情況下為 14.25%。
????????不完美信息下更高的性能增益證明了不完美信息利用的設計在不完美信息下帶來了額外的好處,更接近現實世界的情況。
????????我們以實驗 1 中的病床分配為例,將我們的方法應用 10 天和 30 天后的策略可視化在圖 8 的北京地圖上,顏色越深表示醫療資源越多。 它表明,在大流行傳播過程中,策略會有所不同,并且一些關鍵區域被分配了更多的資源,即高效和實時的策略。 ?
?4.5 訓練過程的收斂性和有效性
???????我們在北京和上海的數據集上訓練 RL 智能體,北京的訓練過程如圖 9 所示。由于分解動作空間的設計,大大簡化了決策過程,因此輕量級網絡可以滿足我們的需求。 結合我們的訓練算法,我們可以高效地進行訓練過程。 在沒有高性能 GPU 的筆記本電腦上,平均每一步只消耗 8.26 秒,而在筆記本電腦上,整個 100 步不到 15 分鐘。 第 3.4 節中定義的訓練損失在訓練過程中迅速下降,表明收斂性良好。
????????
總結
以上是生活随笔為你收集整理的论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文笔记: Modeling Extre
- 下一篇: shp格式文件简介