Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres
摘要
基于文本的游戲(TBGs)已經成為評估基礎語言理解和強化學習(RL)交叉階段進展的有用基準。最近的工作提出了使用外部知識來提高TBG的RL制劑的效率。在本文中,我們假設為了在TBG中有效地行動,代理必須能夠在檢索和使用相關常識知識的同時跟蹤游戲的狀態。因此,我們為TBG提出了一個代理,它可以誘導游戲狀態的圖形表示,并將其與來自ConceptNet的常識知識圖形結合起來。這種結合是通過兩個符號表示之間的雙向知識圖注意來實現的。我們表明,將常識納入博弈狀態圖的代理優于基線代理。
1.介紹
基于文本的游戲(tbg)是一種模擬環境,在這種環境中,代理完全以文本的形式與世界進行互動。TBG已經成為研究強化學習代理如何解決語言理解、部分可觀察性和在組合大的動作空間中生成動作的挑戰的關鍵基準。TextWorld (C?té et al., 2018)是一個基于文本的游戲環境,近年來備受關注。
最近的工作表明,需要更多的知識來解決TBG中的挑戰。Ammanabrolu和Riedl(2019)提出了手工制作的規則,使用狀態知識圖(很像游戲地圖)來表示游戲的當前狀態。我們自己之前的工作(Murugesan等人,2021年)提出了TextWorld的擴展,稱為TextWorld Commonsense (TWC),以測試代理在與世界交互時使用常識知識的能力。TWC背后的假設是,常識知識使行為主體能夠理解當前的行為如何影響未來的世界狀態;并支持前瞻性規劃(Juba, 2016),從而導致在每一步的行動的樣本高效選擇,并推動代理更接近最佳性能。
在本文中,我們假設要在這種基于文本的游戲環境中有效地行動,代理必須能夠有效地跟蹤游戲的狀態,并利用該狀態聯合檢索和利用相關常識知識。例如,常識知識,如蘋果應該放在冰箱里,將有助于代理行為更接近最佳行為;而像蘋果在桌子上這樣的狀態信息會幫助代理更有效地計劃。因此,我們提出了一種技術:
(a)以符號圖的形式跟蹤游戲狀態,該符號圖代表了主體對世界狀態的當前信念(Ammanabrolu和Hausknecht, 2020a;Adhikari等人,2020);
(b)從ConceptNet檢索相關常識知識(Speer et al., 2017),
(c)聯合利用狀態圖和檢索到的720個常識圖。這些綜合的信息被用來選擇最優的行動。最后,我們演示了我們的代理與TWC環境上最先進的基線代理的性能。
2.相關工作
2.1Text-based reinforcement learning
基于文本的游戲最近成為推動RL研究進展的一個有前途的框架。之前的工作探索了基于文本的RL學習基于外部文本語料庫(Branavan等人,2012年)或從文本觀察(Narasimhan等人,2015年)的策略。在這兩種情況下,我們都會分析文本,并利用來自游戲環境的反饋共同學習控制策略。Zahavy等(2018)提出了action - elimination Deep Q-Network (AE-DQN),學習對無效動作進行分類,減少動作空間。在我們的工作中使用常識和狀態圖具有相同的目標,即通過對游戲狀態和先驗知識的聯合推理來降低不合理行為的權重。最近,C?té等人(2018)介紹了TextWorld, Murugesan等人(2021)提出了TextWorld Commonsense (TWC),這是一種基于文本的游戲環境,需要代理利用先驗知識來解決游戲。在這項工作中,我們以Murugesan等人(2021)的代理為基礎,表明先驗知識和狀態信息是互補的,應該聯合學習。
2.2KG-based state representations
tbg中最近的一項工作旨在通過使用代理信念的符號表示來提高泛化性能。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Ammanabrolu和Hausknecht (2020b)提出了KGA2C。這兩種方法背后的理念都是將游戲狀態表示為信念圖。最近,Adhikari等人(2020)提出了圖形輔助變壓器代理(GATA),一種在規劃過程中構建和更新潛在信念圖的方法。我們的工作將這些基于圖形的狀態表示與先驗常識圖集成在一起,允許代理使用先驗知識更好地建模游戲狀態。
2.3Sample-efficient reinforcement learning
目前RL研究的一個關鍵挑戰是低樣本效率(Kaelbling et al., 1998)。為了解決這個問題,在RL方法中添加先驗或外部知識的嘗試很少。值得注意的是,Murugesan等人(2020)提出使用從ConceptNet中提取的先驗知識。Garnelo等人(2016)提出了深度符號RL,它依靠符號AI技術作為引入常識先驗的一種方式。還有關于政策轉移的研究(Bianchi等人,2015年),旨在重用在不同環境中獲得的知識。體驗重放(Wang et al., 2016;Lin, 1992, 1993)提供了一個如何存儲以前的經驗并在以后重用的框架。在本文中,繼Murugesan等人(2020)之后,我們使用外部KGs作為先驗知識的來源,并將這種知識表示與基于圖的狀態建模相結合,以使代理能夠更有效地行動。
3.模型與架構
我們的模型的高級架構包含三個主要組件:(a)輸入編碼器;(b)基于圖的知識提取器;(c)動作預測模塊。輸入編碼層用于編碼時間步t的觀察結果和使用GRUs的可接受動作列表(Ammanabrolu和Hausknecht, 2020a)。基于圖的知識提取器從補充的知識來源(游戲狀態和外部常識知識)中收集相關知識。我們允許來自每個知識來源的信息來指導和指導更好的代表學習。
最近的工作主要演示了TextWorld RL代理使用兩種不同類型的知識來源。狀態圖(SG)捕獲通過基于語言的語義圖表示的環境的狀態信息(Ammanabrolu和Riedl, 2019)。圖2中的示例顯示了從環境的文本觀察中提取Apple→on→Table等信息。具體來說,Ammanabrolu和Riedl(2019)通過使用OpenIE (Angeli等人,2015)和一些手動啟發式提取信息來創建這種知識圖。常識圖(CG)捕獲實體之間的外部常識知識(Murugesan等人,2021年)(來自常識知識來源,如ConceptNet)。我們假定RL代理可以在不同的子任務中利用這兩個圖中的信息,從而實現高效學習。SG為代理提供了一種象征性的方式來表示其當前對游戲狀態的感知,包括其對周圍環境的理解。另一方面,CG為代理提供了關于在給定狀態下什么行為有意義的補充類人知識,因此能夠更有效地探索非常大的基于自然語言的行為空間。
我們使用雙向知識圖注意(BiKE)機制將狀態信息與常識知識結合起來,該機制將狀態圖和常識圖相互重新上下文化,以獲得最佳的行為軌跡。圖2提供了一個緊湊的可視化。
4.利用BiKE進行知識集成
圖1:TBG的圖解,它既需要游戲的狀態表示,也需要有效探索和學習最佳行動軌跡的外部常識。觀察文本輸入狀態圖和常識圖;最佳行動軌跡是根據兩張圖的信息計算出來的。
總結
以上是生活随笔為你收集整理的Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: input自动获取焦点
- 下一篇: 投资理财-未来操作