战斗机嵌入式训练系统中的智能虚拟陪练
戰(zhàn)斗機嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練
人工智能技術(shù)與咨詢?
來源:《航空學(xué)報》?,作者陳斌等
摘 要:智能化“實虛”對抗是現(xiàn)代先進戰(zhàn)斗機嵌入式訓(xùn)練系統(tǒng)的重要功能需求。自主空戰(zhàn)決策控制技術(shù)在未來空戰(zhàn)裝備發(fā)展中扮演關(guān)鍵角色。將當(dāng)前的功能需求和發(fā)展中的技術(shù)結(jié)合起來,得到了空戰(zhàn)智能虛擬陪練的概念。先進控制決策技術(shù)的引入使得智能虛擬陪練能夠幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練,而訓(xùn)練中真實的對抗場景為技術(shù)的驗證提供了理想的環(huán)境,大量的訓(xùn)練數(shù)據(jù)為技術(shù)的持續(xù)迭代優(yōu)化提供了保障。作為可學(xué)習(xí)和進化的空戰(zhàn)戰(zhàn)術(shù)專家,智能陪練在人機對抗和自我對抗中不斷優(yōu)化,當(dāng)其具備與人相當(dāng)甚至超越人的戰(zhàn)術(shù)能力時,可應(yīng)用于未來的無人空戰(zhàn)系統(tǒng)。智能虛擬陪練需要具備4項基本能力:智能決策能力、知識學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示能力。對其包含的關(guān)鍵技術(shù)進行了分析,提出并實現(xiàn)了一個基于模糊推理、神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)的解決方案,展示了其各項基本能力及目前達到的空戰(zhàn)水平。未來更多的模型和算法可在智能虛擬陪練的框架中進行驗證和優(yōu)化。
關(guān)鍵詞:嵌入式訓(xùn)練系統(tǒng);智能虛擬陪練;自主空戰(zhàn);模糊推理;神經(jīng)網(wǎng)絡(luò);強化學(xué)習(xí)
現(xiàn)代戰(zhàn)斗機裝備的嵌入式訓(xùn)練系統(tǒng)一般有“實對實”訓(xùn)練和“實對虛”訓(xùn)練2種模式[1]。其中“實對實”訓(xùn)練是最接近實戰(zhàn)的模式,但占用資源多,組織難度大,且存在“假想敵”扮演逼真度有限的問題。“實對虛”訓(xùn)練通過計算機生成數(shù)字虛擬目標(biāo),可以對“假想敵”的平臺、武器和傳感器性能進行模擬,能夠根據(jù)訓(xùn)練需要生成任意的交戰(zhàn)場景,從而有效提高空戰(zhàn)訓(xùn)練的針對性,擴大訓(xùn)練覆蓋面,提升訓(xùn)練效率[2]。
空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練要求虛擬目標(biāo)具備一定的智能水平[3]。通過建立空戰(zhàn)規(guī)則庫和戰(zhàn)術(shù)庫,賦予虛擬目標(biāo)基本的戰(zhàn)術(shù)響應(yīng)能力,使“實”、“虛”之間可以進行簡單的對抗[4-5]。通過將空戰(zhàn)戰(zhàn)法分解為時序動作,可以實現(xiàn)對某些特定戰(zhàn)法的模擬[6]。進一步提高虛擬目標(biāo)的智能水平,實現(xiàn)更復(fù)雜更有針對性的戰(zhàn)術(shù)演練,是嵌入式訓(xùn)練系統(tǒng)的客觀需求[7-8]。
拋開具體的訓(xùn)練場景,將虛擬目標(biāo)視作一個獨立的空戰(zhàn)智能體,虛擬目標(biāo)智能化所需解決的核心問題即為自主空戰(zhàn)的決策與控制。而以實現(xiàn)無人機自主空戰(zhàn)為目標(biāo),國內(nèi)外進行了各類研究探索[9-11]。其中常用的模型包括影響圖[12-13]、矩陣博弈[14]、微分對策[15]、動態(tài)規(guī)劃[16-18]、模糊推理[19-23]、貝葉斯網(wǎng)絡(luò)[24-25]等。這些模型大體上可以分為2類,一類是通過建立各式各樣的“優(yōu)勢函數(shù)”,將空戰(zhàn)問題轉(zhuǎn)化為優(yōu)化問題求解;另一類則是模仿人類思維過程建立基于規(guī)則的模型。基于“優(yōu)勢函數(shù)”的模型為保證其可解性,一般將空戰(zhàn)問題大幅簡化,采用的“優(yōu)勢函數(shù)”大多欠缺嚴格的物理依據(jù),或者忽略了空戰(zhàn)中的重要約束(如中距導(dǎo)彈的中制導(dǎo)過程),導(dǎo)致其實用價值有限。基于規(guī)則的模型在處理簡單戰(zhàn)術(shù)的時候較為合適,但隨著輸入?yún)?shù)和戰(zhàn)術(shù)選擇的增多,遭遇到維數(shù)爆炸問題。
隨著近年來深度學(xué)習(xí)引領(lǐng)的人工智能技術(shù)的又一次大爆發(fā)[26-27],自主空戰(zhàn)決策控制的研究有了新的突破方向。基于神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)的模型開始進入研究人員的視線,在解決空戰(zhàn)機動決策[28-32]、路徑規(guī)劃[33]和目標(biāo)分配[34]等方面初步顯示了其能力。機器學(xué)習(xí)算法帶來了新的方向,同時也暴露了該領(lǐng)域研究存在的客觀問題。空戰(zhàn)對抗非零和的數(shù)學(xué)本質(zhì)決定了先驗知識對模型的重要性[35],機器學(xué)習(xí)算法本身也需要大量的數(shù)據(jù)作為基礎(chǔ),而先進戰(zhàn)斗機之間的空戰(zhàn)對抗數(shù)據(jù)目前多產(chǎn)生于航空兵部隊的內(nèi)部訓(xùn)練中,研發(fā)人員不易接觸[36];基于各類機器學(xué)習(xí)技術(shù)的模型需要一個持續(xù)的迭代優(yōu)化過程,而機載軟件的安全性要求決定了其不能頻繁更換;在各類簡化環(huán)境下訓(xùn)練得到的模型在真實對抗中的性能有待檢驗。
結(jié)合虛擬目標(biāo)智能化提升和自主空戰(zhàn)技術(shù)發(fā)展2方面的需求,本文提出智能虛擬陪練的概念。智能虛擬陪練,是具備自主決策控制能力的空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練虛擬對手,及其自主空戰(zhàn)能力學(xué)習(xí)進化支持體系。其依托于機載嵌入式訓(xùn)練系統(tǒng),此外還有配套的維護和開發(fā)系統(tǒng)。不同于目前的虛擬目標(biāo),智能虛擬陪練不再是為完成某些特定訓(xùn)練情景任務(wù)而設(shè)計,而是具備完整獨立的空戰(zhàn)決策和控制能力,在幫助飛行員訓(xùn)練的同時自身也在不斷進化。
通過引入自主空戰(zhàn)決策控制技術(shù),使智能虛擬陪練能夠滿足復(fù)雜空戰(zhàn)戰(zhàn)術(shù)演練的需求;通過賦予智能虛擬陪練監(jiān)督學(xué)習(xí)能力,使其能夠?qū)W習(xí)“假想敵”戰(zhàn)術(shù)特點,從而滿足針對性訓(xùn)練需要;通過對嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù)的整理分析,為模型的機器學(xué)習(xí)提供先驗知識和優(yōu)化訓(xùn)練樣本;通過賦予智能虛擬陪練對抗優(yōu)化能力,使其能夠在“人機”對抗和機器自對抗中不斷進化;通過實現(xiàn)核心模型的便捷配置,為模型算法的快速迭代提供途徑。
智能虛擬陪練不僅是未來嵌入式訓(xùn)練系統(tǒng)“實虛對抗”功能(如圖1所示)的重要組成,還是自主空戰(zhàn)決策控制技術(shù)迭代優(yōu)化和實驗驗證的重要工具,是空戰(zhàn)訓(xùn)練和新技術(shù)研發(fā)耦合進步的紐帶,為下一步從虛擬走向真實,從陪練走向主角打下基礎(chǔ)。
1 智能虛擬陪練的能力需求
智能虛擬陪練的運行場景如圖2所示。智能虛擬陪練不僅要實現(xiàn)嵌入式訓(xùn)練系統(tǒng)實虛對抗的智能化,還要實現(xiàn)其自主空戰(zhàn)能力的不斷進化。智能虛擬陪練的基本能力要求包括以下3項。
1.1 智能戰(zhàn)術(shù)決策和控制
智能虛擬陪練能夠根據(jù)任務(wù)目標(biāo)(奪取制空權(quán)、要地防守、區(qū)域突襲等),綜合考慮交戰(zhàn)雙方的平臺性能(機動性能、滯空時間、隱身性能等)、武器性能(武器射程、導(dǎo)引頭截獲距離、命中概率等)和傳感器性能(探測距離范圍和角度范圍),對空中態(tài)勢做出快速合理的戰(zhàn)術(shù)響應(yīng)。其機動動作的控制應(yīng)為實現(xiàn)相應(yīng)機動目的的最優(yōu)或次優(yōu)解。
圖1 嵌入式訓(xùn)練系統(tǒng)中的“實虛對抗”原理
Fig.1 Principle of “real vs virtual counterwork” in embedded training system.
圖2 智能虛擬陪練運行場景
Fig.2 Scenario of intelligent virtual training partner’s operation.
與專家經(jīng)驗和戰(zhàn)術(shù)資料不同,空戰(zhàn)對抗演習(xí)數(shù)據(jù)中沒有顯式的規(guī)則,需要用相應(yīng)的識別算法挖掘出其中的戰(zhàn)術(shù)決策知識。
1.2 空戰(zhàn)戰(zhàn)術(shù)對抗優(yōu)化
經(jīng)過對空戰(zhàn)先驗知識的學(xué)習(xí),智能虛擬陪練可以具備基本的空戰(zhàn)能力。人機對抗和機器自對抗可以進一步優(yōu)化模型和提升戰(zhàn)術(shù)水平。人機對抗,既包括空戰(zhàn)專家在模擬器上與智能虛擬陪練的對抗,也包括飛行員在空中進行的實虛對抗訓(xùn)練。對抗數(shù)據(jù)可存入數(shù)據(jù)庫用于模型的自動優(yōu)化。
機器自對抗是智能虛擬陪練自動優(yōu)化的重要手段。通過采用大規(guī)模并行計算等手段,機器自對抗可在較短時間內(nèi)積累大量的對抗數(shù)據(jù)。通過機器自對抗,不僅可以對監(jiān)督訓(xùn)練得到的戰(zhàn)術(shù)決策模型進行調(diào)整優(yōu)化,還可以自動探索空戰(zhàn)戰(zhàn)術(shù),發(fā)現(xiàn)未被人發(fā)現(xiàn)和使用過的戰(zhàn)術(shù)。
1.3 核心模型參數(shù)化表示
智能虛擬陪練的核心決策控制模型實現(xiàn)參數(shù)化表示,可通過軟件配置文件加載,從而實現(xiàn)模型的便捷更換。對用戶來說,根據(jù)訓(xùn)練任務(wù)的不同,可以靈活選擇決策控制模型。對研發(fā)方來說,智能虛擬陪練的決策控制模型一直處于訓(xùn)練優(yōu)化的進程中,在得到階段性成果后即可快速投入測試和使用。
2 智能虛擬陪練的關(guān)鍵技術(shù)
按照上述基本能力要求,可以得到智能虛擬陪練的基本功能邏輯,進一步可以將智能虛擬陪練進行詳細的功能劃分,如圖3所示。
圖3 智能虛擬陪練功能分析
Fig.3 Function analysis of intelligent virtual training partner
智能虛擬陪練分為應(yīng)用端和開發(fā)維護端。應(yīng)用端由傳感器模擬、決策控制核心模型、武器接口模擬和飛機平臺模擬4個部分組成。決策控制核心模型包含態(tài)勢計算、決策計算和戰(zhàn)術(shù)控制計算3個模塊。開發(fā)和維護端包含先驗規(guī)則庫、基于規(guī)則的決策控制模型,參數(shù)化決策控制模型,以及對抗運行環(huán)境。
2.1 應(yīng)用端關(guān)鍵技術(shù)
2.1.1 態(tài)勢計算
態(tài)勢計算一直是空戰(zhàn)決策控制研究的重點問題,常用的模型包括指標(biāo)體系[37]、D-S證據(jù)理論[38]、貝葉斯網(wǎng)絡(luò)[39]等。近年來基于神經(jīng)網(wǎng)絡(luò)的態(tài)勢評估方法也不斷出現(xiàn)[40-41]。智能虛擬陪練的態(tài)勢計算要求必須考慮交戰(zhàn)雙方的平臺、武器和傳感器性能。目前常用的主觀構(gòu)建的各類優(yōu)勢函數(shù),普遍缺乏對性能因素的定量考慮。建立基于空戰(zhàn)物理規(guī)律的態(tài)勢評估模型,是實現(xiàn)空戰(zhàn)智能決策控制所需解決的首要問題。
2.1.2 決策計算
以空中敵我運動參數(shù),我方平臺狀態(tài)、武器狀態(tài)、傳感器狀態(tài),以及態(tài)勢計算得到的角色任務(wù)、目標(biāo)威脅度、我方導(dǎo)彈命中概率等參數(shù)為輸入,進行戰(zhàn)術(shù)決策計算。
決策計算的實現(xiàn)有2種思路。一種是“推演”式?jīng)Q策。決策模型在決策過程中,需要同時模擬雙方的戰(zhàn)術(shù)響應(yīng)進行多步推演,根據(jù)推演的結(jié)果進行戰(zhàn)術(shù)選擇。AlfaGo等棋類人工智能使用的MCTS[42]算法即為典型的“推演”式?jīng)Q策;另一類則是“反應(yīng)式”決策,也即決策模型是決策輸入到輸出的直接映射,決策計算一步完成。本質(zhì)上“反應(yīng)式”決策模型是一個從態(tài)勢輸入到最優(yōu)響應(yīng)戰(zhàn)術(shù)的函數(shù)。目前空戰(zhàn)領(lǐng)域研究的多為“反應(yīng)式”決策模型。“推演式”決策的理論研究是一個值得期待的方向。
在使用復(fù)雜機器學(xué)習(xí)算法時,需要考慮機載嵌入式環(huán)境的硬件資源限制。
2.1.3 戰(zhàn)術(shù)控制計算
戰(zhàn)術(shù)控制包括飛機平臺機動控制、武器控制和傳感器控制。現(xiàn)代先進戰(zhàn)斗機配備放寬靜穩(wěn)定電傳飛控系統(tǒng)。為發(fā)揮飛機最大的機動性能,在飛控系統(tǒng)內(nèi)設(shè)計高級戰(zhàn)術(shù)機動動作庫,戰(zhàn)術(shù)決策輸出則為動作選擇。每一個戰(zhàn)術(shù)機動都設(shè)有其優(yōu)化目標(biāo)和限制條件,飛控系統(tǒng)基于此求解最優(yōu)控制策略。高級戰(zhàn)術(shù)機動包含的要素如表1所示。
表1 高級戰(zhàn)術(shù)機動示例
Table 1 Examples of high level tactical maneuver
傳感器的輻射狀態(tài)、工作模式和搜索區(qū)域是重要的戰(zhàn)術(shù)控制對象。武器則是發(fā)射流程和發(fā)射模式需要控制。
2.1.4 傳感器模擬
為了提高智能虛擬陪練的逼真度,各類傳感器的數(shù)字模型需要對其性能參數(shù)和工作邏輯進行模擬。例如,雷達有搜索模式和跟蹤模式的區(qū)別,搜索范圍受框架角限制[43],存在速度過零現(xiàn)象等。
2.2 開發(fā)維護端關(guān)鍵技術(shù)
2.2.1 從專家經(jīng)驗、戰(zhàn)術(shù)資料中識別戰(zhàn)術(shù)規(guī)則
從專家和戰(zhàn)術(shù)資料的自然語言表述中,識別出決策模型適用的空戰(zhàn)戰(zhàn)術(shù)規(guī)則,一般即為“IF-THEN”形式。
2.2.2 從對抗數(shù)據(jù)中識別戰(zhàn)術(shù)規(guī)則
嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù),需要進行時空對準、航跡關(guān)聯(lián)等操作后,才能轉(zhuǎn)化為信息完備的空中交戰(zhàn)態(tài)勢。從交戰(zhàn)中飛行員駕駛飛機的運動參數(shù)和狀態(tài)變化,識別其采取了什么戰(zhàn)術(shù)(智能虛擬陪練則是直接記錄了戰(zhàn)術(shù)決策過程),這樣才能得到“IF-THEN”形式的規(guī)則。
2.2.3 基于規(guī)則的決策模型產(chǎn)生參數(shù)化決策模型
基于規(guī)則的模型便于建立,參數(shù)化模型則便于進行自動優(yōu)化和模型配置。由規(guī)則模型訓(xùn)練參數(shù)化模型已證明可行[44]。另一種思路則是將規(guī)則模型本身參數(shù)化,如美國某公司提出的進化模糊推理系統(tǒng)[23,45],其中對模糊推理系統(tǒng)的隸屬度函數(shù)和規(guī)則都進行了參數(shù)化。
2.2.4 智能虛擬陪練自對抗優(yōu)化
近年來引起廣泛關(guān)注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展現(xiàn)了基于深度強化學(xué)習(xí)的智能體的強大的自對抗優(yōu)化能力。美國某公司則號稱其使用遺傳算法優(yōu)化模糊推理樹,實現(xiàn)了超越專家飛行員的空戰(zhàn)水平[23,45],其核心也是模型自對抗。智能虛擬陪練的自對抗優(yōu)化,不僅能實現(xiàn)對先驗知識的優(yōu)化,還可以充分挖掘既有戰(zhàn)術(shù)庫的潛能,甚至創(chuàng)造目前沒有的空戰(zhàn)策略。此外,通過自對抗優(yōu)化,智能虛擬陪練能夠自動適應(yīng)平臺、武器或傳感器性能的變化,使其具備高度的各向兼容性。
2.2.5 對抗運行環(huán)境
智能虛擬陪練自對抗需要在高速并行計算環(huán)境下運行,除了硬件平臺的支持,模型算法也需要適配[47-48]。
3 智能虛擬陪練的解決方案
3.1 解決方案
為驗證上述智能虛擬陪練功能邏輯合理性和相關(guān)關(guān)鍵技術(shù)的可行性,本文提出了一個初步解決方案并進行了實驗驗證。下面介紹方案的關(guān)鍵技術(shù)和實驗驗證情況。圖4為這個方案的應(yīng)用端部分,其中決策計算部分包含模糊推理和神經(jīng)網(wǎng)絡(luò)2個模型,在不同的階段需要使用不同的模型。
圖4 智能虛擬陪練應(yīng)用端解決方案
Fig.4 A solution to intelligent virtual training partner’s application side
3.1.1 傳感器和武器
傳感器層包括了紅外告警和雷達、雷達告警的仿真模型。各模型中除引入了各項性能限制外,還加入了重要的工作邏輯,如雷達搜索和跟蹤模式的切換等。武器為中距導(dǎo)彈。其仿真模型包括發(fā)動機推力模型、導(dǎo)彈氣動模型和導(dǎo)引頭模型。
3.1.2 態(tài)勢計算
在態(tài)勢計算方面,拋棄了傳統(tǒng)的基于主觀賦權(quán)或優(yōu)勢函數(shù)的態(tài)勢評估方法,以平臺、武器和傳感器性能為依據(jù),按照空戰(zhàn)物理原理建立了空戰(zhàn)態(tài)勢評估模型。態(tài)勢評估模型的典型輸出示例如表2所示。
在這個解決方案中,態(tài)勢計算模塊除對單機交戰(zhàn)態(tài)勢進行評估計算,還可以完成編隊角色分配和目標(biāo)分配的計算工作。
3.1.3 空戰(zhàn)戰(zhàn)術(shù)庫和規(guī)則庫
以超視距空戰(zhàn)為研究對象,分析和整理了經(jīng)典的超視距空戰(zhàn)戰(zhàn)術(shù),構(gòu)建了戰(zhàn)術(shù)動作庫,如表3所示。以人工方式識別專家經(jīng)驗和戰(zhàn)術(shù)資料中的戰(zhàn)術(shù)規(guī)則,構(gòu)建了戰(zhàn)術(shù)規(guī)則庫。共得到10種戰(zhàn)術(shù)動作,60條 戰(zhàn)術(shù)規(guī)則。為每一個戰(zhàn)術(shù)動作設(shè)計相應(yīng)的控制律,將其封裝成高級戰(zhàn)術(shù)動作控制器。
3.1.4 模糊推理戰(zhàn)術(shù)決策模型
在規(guī)則庫和戰(zhàn)術(shù)庫的基礎(chǔ)上,建立一個模糊推理戰(zhàn)術(shù)決策模型[23]。對模糊推理模型進行了參數(shù)化改造,使其推理規(guī)則、模糊隸屬度函數(shù)等均可以進行參數(shù)化表示,如圖5所示(編碼“0”表示該項輸入/輸出未被引用)。將隸屬度函數(shù)的各個關(guān)鍵點用其坐標(biāo)來表示,調(diào)節(jié)關(guān)鍵點坐標(biāo)即可完成對隸屬度函數(shù)的調(diào)節(jié)。任意一條規(guī)則包含其引用的輸入和輸出,以及各項輸入輸出的語義值。將模糊推理系統(tǒng)涉及的所有輸入和輸出按序編碼,對語義也作編碼處理,就可以簡單的實現(xiàn)對規(guī)則的參數(shù)化表達。
表2 態(tài)勢計算模型的輸出示例
Table 2 Examples of situation assessment model output
表3 超視距空戰(zhàn)經(jīng)典戰(zhàn)術(shù)動作
Table 3 Classical tactical maneuvers in BVR air combat
圖5 隸屬度函數(shù)和推理規(guī)則的參數(shù)化過程
Fig.5 Parameterization process of membership function and inference rules
通過調(diào)節(jié)推理規(guī)則和模糊隸屬度函數(shù)參數(shù),使決策模型的響應(yīng)與規(guī)則庫中的經(jīng)驗知識基本一致。
使用配置該模型的紅藍雙方進行模擬對抗,對抗場景和雙方的武器配置隨機生成,記錄紅藍雙方各自的決策輸入和輸出。以實驗中的一次模型生成周期中的數(shù)據(jù)為例,紅藍對抗得到總計2 204場的對抗數(shù)據(jù),對應(yīng)4 408架次的模型決策序列。
3.1.5 神經(jīng)網(wǎng)路戰(zhàn)術(shù)決策模型
模糊推理模型相互對抗產(chǎn)生的數(shù)據(jù)為參數(shù)化模型的建立提供了初始樣本。建立了一個BP神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)為輸入30維,輸出10維,2隱層,網(wǎng)絡(luò)權(quán)值參數(shù)總量為1 541。用上述對抗數(shù)據(jù)對其進行有監(jiān)督訓(xùn)練。隨后使用該模型組織紅藍模擬對抗,對抗裁決器根據(jù)交戰(zhàn)結(jié)果分別給予紅藍雙方獎勵或懲罰。神經(jīng)網(wǎng)絡(luò)決策模型使用記錄的對抗過程數(shù)據(jù)和最后的獎懲進行強化學(xué)習(xí),實現(xiàn)模型優(yōu)化,決策模型生成過程如圖6所示。對抗優(yōu)化過程的實現(xiàn)參考文獻[47-48]中的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DQN)算法。這里沒有使用文獻[47-48]中的深度卷積神經(jīng)網(wǎng)絡(luò),這是由于在此問題中,決策輸入是由傳感器輸出和態(tài)勢計算輸出組成的一維狀態(tài)向量,而不是卷積神經(jīng)網(wǎng)絡(luò)擅長處理的二維圖像信息。
在DQN處理的棋類和電視游戲中,決策通常是從一個相對固定的初始狀態(tài)開始的。而在實際空戰(zhàn)中,交戰(zhàn)初始條件,包括雙方的初始態(tài)勢和初始武器配置,是在一定范圍內(nèi)隨機的。棋類游戲中雙方初始態(tài)勢為均衡,而空戰(zhàn)決策模型必須能夠處理初始態(tài)勢非均衡的交戰(zhàn)問題。這就使得初始條件對交戰(zhàn)結(jié)果的影響在對抗優(yōu)化中不可忽略。如圖7所示,初始已經(jīng)處于絕對劣勢的一方,無論作出何種戰(zhàn)術(shù)決策,都會被擊落。在這種情況下,仍直接按照勝獎敗懲的原理給予決策模型反饋,強化學(xué)習(xí)算法將難以收斂。
這里采取了一種“主-客”機制來解決這個問題:雙方完成一次對抗后,互換初始條件,綜合2場對抗的結(jié)果來進行獎懲,以消除初始態(tài)勢的影響。在圖7中,假設(shè)擊落獎勵1,被擊落獎勵-1,否則獎勵0。采用2場獎勵平均的方法進行綜合。那么在互換態(tài)勢前后,雙方相互擊落一次,因此各自得到獎勵為0。而如果有一方能夠在處于劣勢時不被擊落,那么綜合2場結(jié)果其將被獎勵0.5,對方則獎勵-0.5。
圖6 智能虛擬陪練戰(zhàn)術(shù)決策模型生成過程
Fig.6 Procedure of generating decision making model for intelligent virtual training partner
圖7 初始態(tài)勢的影響和“主-客”機制
Fig.7 Influence of initial situation and ‘home vs away’ system
3.1.6 性能評估
選擇空戰(zhàn)交換比作為決策模型性能的評估標(biāo)準。交換比定義為一方被擊落次數(shù)與擊落對方次數(shù)的比。
3.2 基本能力驗證
第1節(jié)所述4項基本能力中,參數(shù)化表示能力已由模型的本身特性確保,另外3項需要進行實驗驗證。
3.2.1 先驗知識學(xué)習(xí)能力
神經(jīng)網(wǎng)絡(luò)模型在完成對2 204場對抗數(shù)據(jù)的學(xué)習(xí)后,其決策輸出與模糊推理模型輸出的對比如圖8所示。可以看出,神經(jīng)網(wǎng)絡(luò)輸出在保持其趨勢和模糊推理模型基本一致的基礎(chǔ)上,反復(fù)震蕩的現(xiàn)象明顯減少了。在完成有監(jiān)督訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)模型對模糊推理模型的交換比為1∶1.16。這顯示了神經(jīng)網(wǎng)絡(luò)完全掌握了模糊推理規(guī)則庫中的先驗知識。同時由于其克服了模糊推理模型輸出震蕩的問題,性能略有提升。
圖8 神經(jīng)網(wǎng)絡(luò)和模糊推理模型輸出對比
Fig.8 Comparison between neural network and fuzzy inference model output
進一步的,在具體的仿真對抗場景下驗證智能虛擬陪練對戰(zhàn)術(shù)規(guī)則的掌握情況。對抗中紅藍雙方使用相同版本的決策模型。
1) 三代機對三代機基本戰(zhàn)術(shù)
圖9中紅藍雙方均為三代機平臺,傳感器武器配置相同。雙方初始態(tài)勢為均勢(同高度同速度),迎頭進入空戰(zhàn)。雙方各自躲掉前2發(fā)導(dǎo)彈(第2發(fā)圖中未顯示),在此過程中雙方持續(xù)下降高度,武器射程縮短,雙方距離逐漸縮小。紅方最后掉頭時機不當(dāng)被擊落。紅藍雙方為同版本模型但決策出現(xiàn)差異的原因在于對抗中存在隨機擾動因素,包括傳感器探測誤差和決策模型的戰(zhàn)術(shù)隨機探索。從這里可以看出,在平臺、傳感器和武器性能相同且初始態(tài)勢一致的前提下,決定空戰(zhàn)勝負的即是決策的細微差異。圖10展示了雙方從第2次攻擊到對抗結(jié)束的決策輸出。在實際的三代機超視距空戰(zhàn)中,適時置尾規(guī)避敵機導(dǎo)彈,再回轉(zhuǎn)繼續(xù)攻擊,是常見且合理的戰(zhàn)術(shù)。
2) 三代機對四代機基本戰(zhàn)術(shù)
圖11中紅方為三代機平臺,藍方為四代機平臺。藍方具有隱身優(yōu)勢。雙方初始態(tài)勢為均勢,迎頭進入空戰(zhàn)。藍方先發(fā)現(xiàn)紅方。紅方在收到雷達告警后,開始做切向機動,破壞藍方跟蹤的同時逼近藍方,成功規(guī)避藍方第1發(fā)導(dǎo)彈。最終紅方逼近到雷達可以發(fā)現(xiàn)藍方的距離,雙方相互攻擊,紅方因開火時間晚先被擊落,但其導(dǎo)彈已對藍方構(gòu)成致命威脅。圖12展示了雙方對抗全程的決策輸出。三代機利用雷達的過零現(xiàn)象逼近四代機,是不多的可以取得一定效果的戰(zhàn)術(shù)選擇。
圖9 三代機vs三代機
Fig.9 Counterwork between two 3rd generation fighters
圖10 三代機對戰(zhàn)三代機紅藍決策輸出對比
Fig.10 Comparison of red with blue decisions in 3rd generation vs 3rd generation counterwork
圖11 三代機(紅)vs四代機(藍)
Fig.11 Counterwork between 3th generation fighter (red) and 4th generation fighter (blue)
通過仿真對抗實驗可以看出,智能虛擬陪練掌握了不同平臺性能配置下的基本超視距空戰(zhàn)戰(zhàn)術(shù),其戰(zhàn)術(shù)響應(yīng)合理正確,與已知的空戰(zhàn)經(jīng)驗知識基本符合。
圖12 三代機對戰(zhàn)四代機紅藍決策輸出對比
Fig.12 Comparison between red and blue decisions in 3rd generation vs 4th generation counterwork
3.2.2 對抗自優(yōu)化能力
在神經(jīng)網(wǎng)絡(luò)完成第1輪1 291場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶2.73。在完成第2輪765場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶3.6。交換比的提高顯示了自對抗對神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化效果。
3.2.3 智能決策綜合能力
構(gòu)建復(fù)雜對抗場景,對解決方案中的態(tài)勢計算和決策模型進行更全面的能力驗證。這里以雙機編隊和單機的對抗作為仿真實驗場景。
圖13中紅藍雙方均為三代機平臺,傳感器和武器配備相同。紅方為雙機編隊,1號機前突,2號 機掩護。紅方1號機和藍方飛機相互攻擊。在導(dǎo)彈逼近到危險距離后,雙方開始機動規(guī)避。此時紅方2號機加速前突進行攻擊占位。紅方1號 機和藍方飛機各自成功規(guī)避導(dǎo)彈后開始掉頭。此時紅方1號機處于掩護位置,紅方2號機處于前突位置,紅方編隊完成了角色輪轉(zhuǎn)。藍方飛機掉頭后遭到紅方2號機導(dǎo)彈攻擊,不得不再次機動規(guī)避。此時紅方2號機繼續(xù)加速前突。在藍方規(guī)避掉導(dǎo)彈后,紅方2號機在超音速狀態(tài)下再次發(fā)射導(dǎo)彈。由于距離近,導(dǎo)彈初速高,藍方未能規(guī)避被擊落。此時紅方1號機也已到達攻擊發(fā)起位置,準備下一輪攻擊。
在這個對抗過程中,態(tài)勢計算模塊進行了正確合理的角色和任務(wù)分配,戰(zhàn)術(shù)決策模型在正確合理的時機選擇了導(dǎo)彈發(fā)射、置尾規(guī)避和回轉(zhuǎn)進攻等戰(zhàn)術(shù)動作,顯示了智能虛擬陪練在復(fù)雜對抗場景下具備較好的戰(zhàn)術(shù)決策能力。
圖13 紅方雙機編隊協(xié)同對抗藍方單機
Fig.13 Counterwork between two collaborative red flights and a single blue flight
該解決方案驗證了前面提出的智能虛擬陪練的功能邏輯和開發(fā)維護流程的合理性,證明了其中主要關(guān)鍵技術(shù)的可行性。此驗證方案中使用的規(guī)則庫和戰(zhàn)術(shù)庫內(nèi)容較少,神經(jīng)網(wǎng)絡(luò)規(guī)模較小,未使用并行計算,未實現(xiàn)規(guī)則的自動識別。模型裝機后得到人機對抗數(shù)據(jù),其中智能虛擬陪練的決策記錄可直接供神經(jīng)網(wǎng)絡(luò)模型回放強化學(xué)習(xí),人的決策過程數(shù)據(jù)仍需要進行人工識別。
智能虛擬陪練的核心,也即空戰(zhàn)戰(zhàn)術(shù)決策和控制,是一個在迅速發(fā)展的研究熱點,各類模型算法,只要符合前面提出的基本功能要求,都可以通過智能虛擬陪練進行驗證和迭代。
4 從智能虛擬陪練到自主空戰(zhàn)
從智能虛擬陪練到自主空戰(zhàn)(如圖14所示),主要是從傳感器、武器和飛機平臺仿真模型,到真實的傳感器、武器和飛機平臺接口。智能虛擬陪練的決策和控制模型,則可以直接應(yīng)用到無人自主空戰(zhàn)系統(tǒng)中。無人自主空戰(zhàn)系統(tǒng),既可以在現(xiàn)有有人機平臺上改裝,也可以是專門研制的制空型無人機。智能虛擬陪練的自對抗優(yōu)化能力,使其能夠適應(yīng)平臺的變化。無論是哪一類平臺,智能虛擬陪練的意義在于,使這些無人自主空戰(zhàn)系統(tǒng)快速具備與人類飛行員相當(dāng)甚至更好的戰(zhàn)術(shù)決策和控制能力,使其綜合作戰(zhàn)效能得到提升。
圖14 從智能虛擬陪練到自主空戰(zhàn)
Fig.14 From intelligent virtual training partner to autonomous air combat
5 結(jié) 論
本文提出的智能虛擬陪練,既是空戰(zhàn)訓(xùn)練發(fā)展的客觀需求,又是自主空戰(zhàn)技術(shù)實驗驗證的工具。拋開具體的有限的訓(xùn)練情景,把智能虛擬陪練視作具有完全自主能力的空戰(zhàn)智能體,分析了其基本能力要求,得到其4項基本能力,即智能決策能力、學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示的能力。據(jù)此設(shè)計了智能虛擬陪練的功能邏輯,并識別出了其中的關(guān)鍵技術(shù)。其中,基于規(guī)則的決策模型可以用來訓(xùn)練參數(shù)化模型,而參數(shù)化模型進行自對抗優(yōu)化。以模糊推理模型、神經(jīng)網(wǎng)絡(luò)模型和強化學(xué)習(xí)算法實現(xiàn)了一個初步的智能虛擬陪練解決方案,實驗表明其能夠滿足4項基本能力要求,在不同平臺配置和不同場景下均能進行合理的戰(zhàn)術(shù)決策和控制。未來自主空戰(zhàn)領(lǐng)域的新模型、新算法,均可在智能虛擬陪練的框架下,按照4項基本能力的要求進行實驗驗證和迭代優(yōu)化。
我們的服務(wù)類型
公開課程
人工智能、大數(shù)據(jù)、嵌入式? ? ? ? ? ? ??? ?? ?
內(nèi)訓(xùn)課程
普通內(nèi)訓(xùn)、定制內(nèi)訓(xùn)? ? ? ? ? ? ? ?? ??? ? ??
項目咨詢
技術(shù)路線設(shè)計、算法設(shè)計與實現(xiàn)(圖像處理、自然語言處理、語音識別)
總結(jié)
以上是生活随笔為你收集整理的战斗机嵌入式训练系统中的智能虚拟陪练的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++ 类设计核查表
- 下一篇: Java总结:SpringBoot的使用