[论文]深度强化学习在超视距空战机动规划的应用
Application of Deep Reinforcement Learning in Maneuver Planning of Beyond-Visual-Range Air Combat
構建基本作戰(zhàn)環(huán)境:飛行運動模型、相對運動模型和導彈攻擊模型
智能體與環(huán)境交互的機動決策框架
設計agent訓練的獎勵函數
提出了感知情境層和值擬合層來取代DQN中的策略網絡
超視距空戰(zhàn)難點
- 導彈作戰(zhàn)戰(zhàn)術機制依靠專業(yè)飛行員經驗
- 真實訓練數據少
針對導彈攻擊區(qū)域,提出導彈殺傷范圍
提出基本獎勵值和態(tài)勢獎勵值
改進的DQN,利用LSTM單元構建感知情境網絡
2 空戰(zhàn)環(huán)境設計
飛行運動模型
x ˙ , y ˙ , z ˙ \dot{x}, \dot{y}, \dot{z} x˙,y˙?,z˙ 是速度在每個軸上的分量。
γ , ψ \gamma, \psi γ,ψ 分別表示飛機的俯仰角和偏航角。
- 機體坐標系
原點O取在飛機質心處, X軸指向機頭, Y軸指向機身上方, Z指向機身右方 - 飛行軌跡坐標系
X軸指向速度方向,Y軸垂直于地平面
(1)俯仰角 γ \gamma γ: 機體軸與地平面(水平面)之間的夾角,飛機抬頭為正。
(2)偏航角(方位角) ψ \psi ψ:機體x軸在水平面上的投影與地x軸之間的夾角,以機頭右偏為正。
(3)滾轉角(傾斜角) μ \mu μ:飛機對稱面繞機體軸 轉過的角度,右滾為正。
相對運動模型
紅藍兩機相對向量
方位角:相對向量與自身速度(地面坐標系)的夾角
目標入射角:相對向量與敵機速度(地面坐標系)的夾角
導彈攻擊模型
描述導彈攻擊區(qū)域的兩種方式
attack envelope
限制條件:
- 導彈最大和最小飛行高度
- 導彈在遇到目標前的最小速度
- 安全距離極限
- 導彈的最大飛行時間
劃分:
- 最大攻擊范圍
- 不可逃脫范圍
- 安全范圍(最小攻擊范圍)
attack envelope的劃分是飛行狀態(tài)、導彈發(fā)射角度、目標進入角度、目標飛機飛行狀態(tài)等的函數。
killing envelope
當攻擊機在可攻擊范圍內發(fā)射導彈時,目標機一般采取一系列過載機動以避免導彈跟蹤,因此為了降低擊中概率,我們根據不同的過載機動提出了四種killing envelope。
- 最大擊中范圍
- 敵機90°側轉時能擊中的范圍
- 敵機180°側轉時能擊中的范圍
- 最小安全發(fā)射范圍
3 空戰(zhàn)模型
空戰(zhàn)決策框架
強化學習通常被建模成一個馬爾可夫決策過程 (Markov decision process,MDP)的問題
agent:獨立訓練
環(huán)境:狀態(tài)轉換模型、空戰(zhàn)獎勵模型、終止判斷模型(是否到達終止條件)
agent構造自己的感知變量 s t R , s t B s^{R}_{t}, s^{B}_{t} stR?,stB?
狀態(tài)空間
agent state由以下三種狀態(tài)表示:
- 獨立狀態(tài):位置和速度
- 相對狀態(tài):相對距離、相對速度和相對角度
- 能量狀態(tài):動能、勢能、影響導彈殺傷距離的參數表示
對狀態(tài)進行歸一化處理
- 最小-最大規(guī)范化對原始數據進行線性變換。
- z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標準差規(guī)范化。
動作空間
離散動作空間:擴展動作
獎懲
蒙特卡洛搜索確定root node的獎勵值
當前狀態(tài)獎勵分為:
- 邊界獎勵:當臨近邊界時,由蒙特卡洛搜索確定。對所有N步的搜索算出出界的概率,通過該概率計算出獎勵。
- 角度獎勵:鼓勵交戰(zhàn)
- 距離獎勵:D1小于導彈的最小攻擊距離,D2大于導彈的最大攻擊距離。
- 導彈攻擊獎勵:通過仿真獲得擊敗敵方的概率和被敵方擊中的概率,從而得到導彈攻擊獎勵。
4 LSTM-DQN算法
使用參數 θ \theta θ近似動作價值函數
policy網絡使用 ? ? g r e e d y \epsilon - greedy ??greedy方法,用于計算agent的當前動作。
target網絡:target函數,用于訓練參數。更新:間隔一段時間進行更新。目的:保持算法穩(wěn)定性。
- DQN的損失函數定義為目標值與預測值的均方差,同時通過更新權重 θ \theta θ使損失最小化。
采用自適應梯度下降法對策略網絡參數進行訓練,經過一定次數的訓練集后,應用參數對目標網絡進行更新。
在訓練過程中,agent容易產生大量無價值的樣本。針對這一問題,我們根據超視距空戰(zhàn)的經驗設計了一個專家過濾器,進行初步的判斷和選擇。將過濾后的樣本與原始樣本按一定比例整合到體驗回放池中進行訓練。
policy network
感知情境層:
對于采樣的所有數據,由運動模型獲得后續(xù)T個連續(xù)狀態(tài)變量
價值函數擬合層:
輸入為LSTM的輸出,輸出為9個動作的概率
空戰(zhàn)仿真
數據分析
5 比較與結論
有效性比較
通過獎勵和獲勝概率兩個標準來衡量,決策方案的有效性。獎勵是對智能體當前狀態(tài)和機動動作的評價,反映了與對手的相對優(yōu)勢。另一個是獲勝概率,它可以從測試實驗的結果中計算出來。
與AC方法和DDPG方法比較。
總結
以上是生活随笔為你收集整理的[论文]深度强化学习在超视距空战机动规划的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 自动化运维开发_Python
- 下一篇: 【办公软件有哪些】万彩办公大师教程丨PD