非合作关系设定下的多智能体强化学习
?
1 非合作關系下的策略學習
在合作關系下,所有智能體的獎勵都相等
在合作關系的剩下,所有智能體有相同的狀態價值函數,故而有相同的目標函數?
1.1 非合作關系下的回報與目標函數?
如果是非合作關系
——>兩個智能體的獎勵不相等,即
——>他們的回報也不相等,即
——>回報的期望(即價值函數)也不相等,此時我們講這些智能體的價值函數記作
?第 i 個智能體的目標函數是狀態價值的期望
注意:此時目標函數是各不相同的,也就是說各個智能體之間沒有共同的目標
注意:第i個智能體的目標函數依賴于所有智能體的策略網絡參數
——>因為環境狀態S是由所有智能體共同決定的
——>舉個例子,你玩MOBA游戲,你自己的策略假設不變,但你隊友是菜鳥/大神,他們的策略網絡參數θ是不同的,這也會影響到整局比賽的走勢,進而影響你的收益和目標函數值
?1.2?非合作關系下的策略學習
在多智能體的策略學習中,第 i 個智能體的目標是改進自己的策略參數,使得 盡量大。 多智能體的策略學習可以描述為這樣的問題:再次注意:此時目標函數各不相同,也就是說各個智能體之間沒有共同的目標
?策略學習的基本思想是讓每個智能體各自做策略梯度上升:
?1.2.1 收斂的條件
在合作關系設定下,所有智能體有相同的目標函數, 那么判斷收斂的標準就是目標函數值不再增長。也就是說改變任何智能體的策略都無法讓團隊的回報增長。 在非合作關系設定下,智能體的利益是不一致的、甚至是沖突的,智能體各有各的目標函數。該如何判斷策略學習的收斂呢?不能用 作為判斷收斂的標準。 (比如在零和博弈的游戲中,雙方的目標函數是沖突的:?,如果捕食者改進策略,那么 會增長,而 會下降。自始至終, 一直等于零, 不論策略學習有沒有收斂。- 在非合作關系設定下,收斂標準是納什均衡。
- 一個智能體在制定策略的時候,要考慮到其他各方的策略。
- 在納什均衡的情況下,每一個智能體都在以最優的方式來應對其他各方的策略。
- 在納什均衡的情況下,誰也沒有動機去單獨改變自己的策略,因為改變策略不會增加自己的收益。
- 這樣就達到了一種平衡狀態,所有智能體都找不到更好的策略。這種平衡狀態就被認為是收斂。
- 在實驗中,如果所有智能體的平均回報都不再變化,就可以認為達到了納什均衡。
1.2.2 評價策略的優劣
?
?
2?非合作設定下的多智能體 A2C
(Multi-Agent Non-cooperative A2C),縮寫 MAN-A2C2.1 策略網絡和價值網絡
MAN-A2C 中,每個智能體有自己的策略網絡和價值網絡
第 i 個智能體的策略網絡需要把所有智能體的觀測
作為輸入,并輸出一個概率分布第 i 個智能體依據該概率分布抽樣得到動作
?
?兩類神經網絡的結構與完全競爭關系下的 MAC-A2C 完全相同。
他們的區別在于
- MAC-A2C 用于完全合作關系,所有智能體有相同的狀態價值函數 Vπ(s), 所以只用一個神經網絡近似 Vπ(s),記作 v(s; w)。
- MAN-A2C 用于非合作關系,每個智能體各有一個狀態價值函數 ,所 以每個智能體各自對應一個價值網絡
2.2 算法推導
在非合作關系設定下,第 i 號智能體的動作價值函數記作 ,策略網絡記作?
我們用作為定理中的基線,并且用價值網絡 近似 和A2C一樣,策略梯度可以近似成:?于是使用TD上升更新策略網絡參數
?
2.3 訓練流程
?
?和完全合作關系下是一樣的
?每一個智能體自己做價值網絡更新
?
?每一個智能體自己做策略網絡更新
和A2C一樣,MAN-A2C 屬于同策略 (On-policy),不能使用經驗回放。
2.4 決策
?3 三種架構
3.1 中心化訓練+中心化決策
這 種方式是不實用的,僅大家理解算法而已。 中央控制器 (Central Controller)里面部署了所有 m 個價值網絡和策略網絡:?
?訓練和決策全部由中央控制器完成。智能體負責與環境交互,執行中央控制器的決策, 并把觀測到的 和 匯報給中央控制器。
?3.1.1?MAC-A2C 與?MAN-A2C 的區別
- MAC-A2C 的中央控制器上只有一個價值網絡, 而MAN-A2C 則有 m 個價值網絡。
- MAC-A2C 的每一輪只有一個全局的獎勵r,MAN-A2C 的每個智能體都有自己的獎勵
3.2?去中心化訓練 + 去中心化決策
為了避免“完全中心化”中的通信,可以對策略網絡和價值網絡做近似,做到“完 全去中心化”。把 MAN-A2C 中的策略網絡和價值網絡做近似:?
?
此處的的實現與完全合作關系設定下的“完全去中心化”幾乎完全相同 。 唯一的區別在于此處每個智能體獲得的獎勵 ri是不同的,而上一章完全合作關系設定下的獎勵是相同的?
3.3?中心化訓練 + 去中心化決策
與“完全中心化”的 MAN-A2C 相比,唯一的區別在于對策略網絡做近似:?
由于用智能體局部觀測 替換了全局狀態,策略網絡可以部署到每個智能體上。而價值網絡仍然是,沒有做近似。?
中央控制器上有所有的價值網絡及其目標網絡?中央控制器用智能體發來的觀測和獎勵訓練這些價值網絡。
- 中央控制器把 TD 誤差反饋給智能體
- 第i號智能體用,本地的更新自己的策略網絡
3.3.1 中心化訓練
?
?每一個智能體與環境交互,獲得數據
中央控制器分別更新m個智能體的?價值網絡和目標網絡
?
?中央控制器把 TD 誤差反饋給對應的智能體后,每個智能體分別更新自己的策略網絡
?3.3.2 去中心化決策
?
總結
以上是生活随笔為你收集整理的非合作关系设定下的多智能体强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css强制自动换行
- 下一篇: 记一次用WPScan辅助渗透WordPr