Text-based RL Agents with Commonsense Knowledge:New Challenges, Environments and Baselines
dblp: Keerthiram MurugesanList of computer science publications by Keerthiram Murugesanhttps://dblp.org/pid/178/2877.html
摘要
基于文本的游戲已經成為強化學習(RL)研究的重要試驗臺,要求RL代理將基礎語言理解與順序決策結合起來。在這篇論文中,我們研究了向RL制劑注入常識知識的問題。這些知識將允許代理在世界上通過修剪不合理的行為有效地行動,并執行前瞻性計劃,以確定當前的行為可能如何影響未來的世界狀態。我們設計了一個新的基于文本的游戲環境,稱為TextWorld Commonsense (TWC),用于訓練和評估RL代理,使用特定類型的關于對象、它們的屬性和可見性的常識知識。我們還引入了幾個基線RL代理,它們跟蹤順序上下文并動態地從ConceptNet中檢索相關常識知識。我們表明,在TWC中加入常識知識的代理表現更好,同時行動更有效。我們進行了用戶研究,以評估人類在TWC上的性能,并表明未來有足夠的改進空間。
1.介紹
多年來,模擬環境被廣泛用于推動強化學習(RL)的進步。最近一個備受關注的框架是TextWorld (TW) (C?té et al. 2018),其中代理必須與外部環境交互,僅使用文本的形式來實現給定的目標。TextWorld和類似的基于文本的環境試圖為順序決策設置帶來基礎語言理解方面的進步。
雖然現有的基于文本的游戲對于RL研究很有價值,但它們卻未能測試人類智力的一個關鍵方面:常識。人類利用有關實體的常識(背景)知識——屬性、空間關系、事件、因果關系和其他社會習俗——在與世界互動時。基于此,我們提出了一種新的基于文本的環境,稱為TextWorld Commonsense(或TWC),在這種環境中,代理將使用存儲在諸如ConceptNet等知識庫中的常識知識(Liu和Singh 2004;Speer, Chin和Havasi 2017)來有效地行動。TWC是一個類似于TextWorld的沙盒環境,在這個環境中,代理必須清理房子。在這種環境中實現目標需要了解關于對象、它們的屬性、位置和功能支持的常識。常識知識的有效使用將允許代理在每一步選擇正確和適用的行動:即,通過減少探索來提高樣本效率。此外,常識知識將幫助代理執行前瞻性計劃,并確定當前的行動可能如何影響未來的世界狀態(Juba 2016)。圖1給出了來自TWC的運行示例,說明了代理如何利用常識知識庫(KB)。
驗證這樣的環境是具有挑戰性的,需要:(1)驗證游戲中使用的信息;(2)評估能夠利用外部常識知識的基線代理與不能利用外部常識知識的對應代理;(3)提供實證證據,證明環境可以推動未來的研究。在這項工作中,我們通過首先執行人工注釋來驗證TWC環境的正確性和完整性來解決這些問題。接下來,我們設計了一個基于文本的代理與常識知識相結合的代理框架。代理可以動態地從一個常識性知識庫中檢索相關知識。最后,基于人類對生成的游戲的表現和常識知識的人工選擇,我們討論并證明了這樣一個環境在推動未來研究的重要性。
貢獻
本文的主要貢獻如下:(1)我們提出了一個新的環境TWC來評估RL代理對常識知識的使用;(2)我們引入了使用來自ConceptNet的常識知識的基線,并表明常識確實有助于決策;(3)雖然我們的具有常識的模型表現良好,但在TWC環境中,我們顯示了自動代理和人類之間的顯著性能差距。這證實了我們的主張,即TWC為RL制劑提供了一個具有挑戰性的試驗臺,并可作為該領域進一步研究的刺激物。
2.TextWorld常識(TWC)
現有的基于文本的游戲嚴重限制了代理需要了解和利用的常識知識的數量和種類。因此,在本文中,我們通過重用TextWorld (C?té et al. 2018)引擎創建并呈現了一個新的領域——TextWorld Commonsense (TWC),以生成基于文本的環境,在這些環境中RL代理需要有效地檢索和使用常識知識。常識的定義可以非常廣泛和多種多樣(Fulda等人,2017年)。在本文中,我們主要關注與對象、它們的屬性和可見性相關的常識知識。
2.1構建TWC
我們將TWC域構建為房屋清理環境,在該環境中,代理需要從常識知識庫獲取有關房屋中典型對象、它們的屬性和預期位置的知識。通過在不同位置隨機放置對象來初始化環境。代理的高級目標是通過把物品放在它們的常識性位置來整理房子。這個高級目標可能包含多個需要常識知識的子目標。例如,對于子目標:把蘋果放進冰箱,來自ConceptNet的常識知識(apple→AtLocation→fridge)可以幫助代理。
Goal Sources:
雖然我們的主要目標是創建需要常識的環境,但我們不希望TWC偏向于任何現有的知識庫。另外,如果環境和外部知識都來自特定常識知識庫(如ConceptNet)的相同部分,我們還希望排除數據泄漏的可能性。對于TWC目標實例的構建,我們選擇了與現有常識KBs正交的信息源。具體來說,我們使用:(1)來自7ESL2的圖片字典;(2)英國文化協會的詞匯學習頁面3;(3)家庭英語詞匯學習頁面4;(4) ESOL課程。我們從這些源中收集詞匯表術語,并手動聚合這些內容,以便構建一個數據集,其中列出了通常在室內環境中可以找到的幾種對象。對于每個對象,數據集指定了一個合理且一致的位置列表。
Instance Construction:
實例構造:從該數據集中采樣一個TWC實例,其中包括8種房間類型的配置和總共超過900個實體(表1)。環境包括三種主要類型的實體:對象、支持者和容器。對象是可以由代理攜帶的實體,而支架和容器是可以放置對象的家具。o代表房子里的物體或實體;r表示實體通常所在的房間;l表示房間內實體通常被放置的位置。在我們的例子中,o:apple是一個實體,l: fridge是容器,r:kitchen是房間。通過手動驗證過程(我們將在下一節2.2中說明),我們確保實體、支持者/容器和房間之間的關聯反映了常識。如表1所示,我們從上述資源中總共收集了190個對象。我們通過手動注釋具有限定屬性的對象進一步擴展了這個列表,這些屬性通常是預定義集合中的形容詞(例如,襯衫可能有一種顏色和特定的紋理)。這允許將用于生成TWC環境的總對象池的基數增加到800以上。
?2.2驗證TWC
為了確保TWC反映常識性知識,我們設置了兩個注釋任務來驗證環境目標(即在2.1節中定義的(o、r、l)形式的目標三元組。第一個任務旨在驗證目標的正確性,并評估目標(o, r, l)三元組對人類是否有意義。第二個任務旨在驗證完整性,即環境中的其他三元組對人類來說沒有意義。
驗證正確性:
為了測試環境的正確性,我們要求人工注釋人員確定他們是否會認為目標o、r、l中給定的房間-位置組合是對象o的合理位置。如果是,實例就被標記為正的,否則就標記為負的。我們收集了來自10個注釋者的注釋,總共跨越205個獨特的o, r, l三元組。每個注釋器標記了70個這些三元組,每個三元組被分配給至少3個不同的注釋器。注釋者不被給予任何其他偏倚信息,所有注釋者都獨立工作。我們在表2中展示了注釋者與TWC目標的總體一致。注釋者的高度一致表明目標o、r、l三元組反映了人類的常識知識。
驗證完整性:
與上面的注釋練習類似,我們還要求人工注釋人員確定非目標o、r、l三元組對他們是否有意義。除了上面提到的70個三元組之外,每個M = 10的注釋者被要求將一組30個非目標三元組標記為正或負。為了給注釋器提供一個信息豐富的非目標o、r、l三元組集合,我們使用GloV e (Pennington, Socher, and Manning 2014)來計算TWC中每個位置的嵌入。對于給定的目標o,根據l與l’嵌入的余弦相似度,從與目標位置l最相似的位置中選擇非目標位置l’。與以前一樣,每個非目標三元組被分配給一個由97個三元組組成的集合中的至少3個注釋器。正如我們在表2中看到的,注釋者很少發現假設的非目標ho, r, li三元組作為常識。
注釋器可靠性:
對于我們的總體注釋練習,我們可以報告注釋者之間的協議統計數據,因為總體注釋在標簽邊緣方面不再不平衡。我們報道了Krippendorff的ακ = 0.74。這個數字超出了可接受的一致性范圍,表明我們的注釋器在對三元組進行評級時具有很強的一致性。
2.3生成TWC游戲
我們使用TextWorld引擎創建了一組基于文本的游戲,其目標是通過將對象放在前面提到的TWC數據集中指定的目標位置來整理房子。根據游戲中物體的總數、代理需要找到的物體的數量(游戲開始時代理已經攜帶了剩下的物體)和需要探索的房間數量,游戲被分為三個難度級別(簡單、中等和困難)。這些屬性的值從表3中列出的值中隨機抽樣。對于每個難度級別,我們提供一個訓練集和兩個測試集。訓練集是由表1中報告的2/3個獨特對象構建的。對于第一個測試集,我們使用了與訓練游戲相同的對象集。我們稱這個集合為分布內測試集。對于第二個測試集,我們使用剩下的1/3個對象來創建評估游戲。我們稱這個集合為分布外測試集。這使得我們不僅可以研究代理在相同的訓練數據分布中進行泛化的能力,還可以研究它們實現對不可見實體的泛化的能力。圖2顯示了一款中等難度關卡的游戲攻略。
?2.4 Benchmarking Human Performance
為了完成TWC領域的基準測試,我們執行了另一個人工注釋任務,關注人類游戲玩家的表現。
這樣的實驗對于確定人類玩家的表現是必不可少的,因為人類玩家通常被認為善于利用常識知識。我們通過Jupyter筆記本設置了TWC的交互界面,玩家可以使用該界面與我們評估所有其他RL代理的相同游戲進行交互。我們記錄了玩家的所有動作(步驟),以及收集到的獎勵。在每一個步驟中,游戲都會以文本形式向玩家展示當前的游戲環境,并給出一個包含可能操作的完整列表的下拉框。一旦玩家選擇了一個行動,它便會被執行;這個過程不斷重復,直到游戲中所有可能的目標都完成。總共有16個注釋者玩了104個TWC游戲實例,分布在簡單、中等和困難的級別。每個難度級別有5個游戲,每個來自訓練和測試分布,共30個獨特的游戲。每個獨特的游戲都由至少3個注釋者進行注釋。表4中列出了結果,以及第4節中的實驗結果,以便與TWC制劑進行直接比較。
3.TWC代理
基于文本的游戲可以被視為部分可觀察的馬爾可夫決策過程(POMDP) (Kaelbling, Littman, and Cassandra 1998),其中系統動態由MDP決定,但代理不能直接觀察到底層狀態。agent在每個時間步中都獲得一個獎勵,它的目標是使期望的獎勵折現金額最大化。TWC游戲允許代理通過文本感知環境并與之互動。因此,在時間步t ot上的觀察被表示為一個標記序列(ot = {o1t, . . ont})。類似地,每個動作a也被表示為一個標記序列{a1,…,是}。這個項目的目標是用常識測試RL代理。因此,代理也可以訪問常識知識庫;并且可以在選擇動作時使用它。為了建模TWC,我們設計了一個框架:(a)學習各種動作的表示;(b)從順序上下文中學習;(c)動態檢索相關常識知識;(d)將檢索到的常識知識與語境相結合;(e)預測下一步行動。該框架的框圖如圖3所示。我們將在下面描述框架的各個組件。
3.1動作與觀察編碼器
?3.2Context Encoder
我們的RL代理的一個關鍵挑戰是在建模上下文中,即。觀察的歷史。我們使用另一個循環編碼器在觀察表示上對上下文進行建模。我們使用GRU網絡將之前的觀測到ot的序列編碼為向量st = GRU(st?1,ot)。我們將st稱為狀態向量或上下文編碼。在最終的動作預測中,除了常識知識外,還將使用上下文編碼。
3.3Dynamic Commonsense Subgraph
我們的模型以圖表的形式從ConceptNet檢索常識知識。圖GtC在每個時間步t上動態更新。GtC是通過將t時刻ot的文本觀察映射到ConceptNet,并將其與前一個時間步Gt?1C的圖相結合來構造的。我們使用space (https://spacy.io)來提取名詞塊,然后執行與ConceptNet中的所有概念匹配的max子字符串。這就得到了t時刻觀察ot的一組實體et。然后,我們將Gt?1c和et中的概念結合起來,得到Et。Et包含了在時間步驟t之前代理觀察到的所有概念,包括對房間的描述、當前的觀察和清單中的對象。給定Et,我們描述了三種從外部知識中自動提取常識圖Gt的不同技術。
(1)直接連接(DC):這是構建GtC的基線方法。我們從ConceptNet中獲取Et中每個概念之間的直接鏈接。
(2)上下文直接連接(CDC):由于代理的目標是通過將物體放入適當的容器(如蘋果、冰箱)來清理房子,我們假設只在物體和容器之間添加鏈接可能對代理有益,而不是像直接連接那樣在所有概念之間添加鏈接,因為我們可能會用噪音淹沒代理。為了實現這個目標,我們將實體Et分成對象和容器。由于我們從Et中的清單中知道實體構成對象,因此不需要顯式標記,因為我們將其余實體視為容器。我們只保留來自ConceptNet的對象和容器之間的邊緣。
(3)鄰域(NG):以前的方法只關注從外部知識等觀察到的概念之間的聯系。除了直接的關系,它可能是有益的,包括來自外部知識的概念,與Et相關,但沒有直接觀察到從游戲。因此,對于Et中的每個概念,我們包含了它的所有鄰近概念和相關鏈接。
3.4知識集成
我們增強了基于文本的RL代理,允許它聯合上下文化來自常識子圖和觀察表示的信息。我們稱這個步驟為知識整合。我們使用圖形編碼器和一個共同注意層對常識圖進行編碼。
Graph encoder:
圖GtC的編碼方式如下:首先,我們使用預先訓練的KG嵌入(Numberbatch)將節點集Vt映射到一個特征矩陣[e1t,…,e|Vt| t]∈f ×|V t * |。這里,eit∈R f是節點i∈V t *中單詞的(平均)嵌入量。接下來(Lu et al. 2017),我們還添加了一個哨點向量,以允許注意模塊不關注子圖中的任何特定節點。通過圖注意網絡(V eliˇckovi′c et al. 2018)在Gtc的節點之間傳遞消息,這些節點嵌入在每個時間步進行更新,以使用多頭圖注意獲得{z1t,z2t···z|Vt| t},從而得到更好地捕捉子圖中節點之間概念關系的最終圖表示。
?Co-Attention:
?
?3.5選擇動作
?
圖3:在任何給定的時間步驟中我們的框架決策的概述。該架構包括以下組件(以顏色顯示):(a)對所有可接受動作a∈a進行編碼的動作編碼器,(b)對觀察ot進行編碼的觀察編碼器,(c)對動態上下文Ct進行編碼的上下文編碼器,(d)由代理提取的ConceptNet GtC的動態常識子圖,(e)將文本觀察的信息與提取的常識子圖相結合的知識集成組件,以及(f)動作選擇模塊。⊕表示連接操作符。
4.Experiments
在本節中,我們將報告我們在TWC游戲上的實驗結果。鑒于TWC的質量(正確性和完整性)已經得到了評估(c.f第2.2節),這些實驗主要集中在表明:(1)利用常識知識的代理比基于文本的代理在TWC上獲得更好的性能;(2)由于常識知識主體與人類行為的差異,TWC可以幫助常識知識的使用研究
實驗設置:我們用(1)歸一化分數(達到的分數÷可達到的最大分數)來衡量各種代理的性能;(2)步數。每個特工訓練100集,結果平均超過10次。遵循FirstTextWorld競賽(Adolphs和Hofmann 2019)中的一種獲勝策略,我們使用優勢行動者-評論家框架(Mnih等人,2016)使用訓練游戲中的獎勵信號來訓練代理。
4.1 RL Agents in TWC
我們在TWC清理游戲上評估我們的框架(如2.3節所述)。為了進行比較,我們考慮在每個時間步隨機選擇一個動作的隨機agent。根據RL代理可獲得的信息類型,我們考慮兩種類型的實驗設置:(1)基于文本的RL代理可以訪問TWC環境提供的游戲當前狀態的文本描述(觀察);(2)基于常識的RL代理可以同時訪問觀察和ConceptNet
Text-only Baseline Agents:
作為基線,我們選擇了各種僅利用觀察的基于SOTA文本的代理:(1)LM-NSP使用諸如BERT (Devlin等人)等語言模型。和GPT2 (Radford等人2019),將觀察和行動對作為下句預測(NSP)任務;(2) LSTM-A2C (Narasimhan, Kulkarni, and Barzilay 2015)使用觀察到的文本來選擇下一個動作;(3) DRRN (He et al. 2016)利用觀察空間和行動空間之間的相關性,實現更好的收斂;(4) KG-A2C (Ammanabrolu and Hausknecht 2020)使用從觀察中生成的游戲環境知識來指導agent的探索。對于這些基線,我們對文本使用GloVe (Pennington, Socher, and Manning 2014)嵌入。
這些基線的結果如表4所示。對于每個難度級別,我們報告:代理的表現;解決游戲6的最佳步驟數;還有人類的表現。GPT2-NSP和BERTNSP的性能表明,即使是強大的預先訓練模型,如果不調優該任務,在這些常識性RL博弈中也有困難,因為它們沒有捕捉實體之間的常識性關系。諸如LSTM-A2C、DRRN和KG-A2C之類的基線相比LM-NSP基線具有競爭優勢,因為它們有效地適應與環境的順序交互,從而提高性能。在這些基線中,DRRN和KG-A2C的性能優于LSTM-A2C,因為它們利用狀態和動作空間的結構來有效地探索環境。
Commonsense-based agents:
我們通過兩種方式介紹常識。第一種方法是(Text + Numberbatch),將LSTM-A2C代理中的GloVE嵌入替換為Numberbatch (Nb)嵌入(Speer, Chin和Havasi 2017),這些嵌入在文本和ConceptNet上進行了訓練。這是一種用常識性知識增強文本信息的天真方法。表4的結果表明,引入Nb嵌入比GloV e嵌入獲得了明顯的增益(在簡單游戲中平均3步,在中等水平游戲中平均7步)。
為了顯式地使用常識性知識,我們使用3.2節中概述的三種不同機制從ConceptNet中檢索相關信息:(DC、CDC和NG)。這些方法從ConceptNet中檢索相關子圖中的概念和結構,并利用我們的共同注意機制(第3.4節)。不同檢索機制下的代理性能比較如圖5所示。結果表明,CDC在其他機制中表現最好,特別是與DC相比。不同于DC,它包含了從ConceptNet中觀察到的概念之間的所有鏈接,CDC限制了觀察到的對象和容器之間的鏈接。從ConceptNet中選擇相關鏈接可以提高代理的性能。
鑒于CDC性能最好,我們將基于文本的模型與CDC增強的常識知識的結果與其他基線進行比較。表4顯示了使用GloV e或Nb嵌入初始化并使用常識知識增強的基于文本的代理的結果。我們發現在簡單和中等水平的游戲中,基于常識的RL代理比基于文本的RL代理表現得更好。這并不奇怪,因為這些實例大多涉及選擇一個對象并將其放在同一房間的容器中。基于文本和常識的RL代理在難度關卡中都很困難,因為這些游戲擁有多個房間和多個對象和容器。我們還注意到,基于常識的RL代理所采取的平均步驟數明顯低于其他代理,因為它有效地使用常識知識來排除不合理的操作。這證明了TWC是一個很有前途的試驗臺,常識知識可以幫助它.
結果表明,TWC仍有很大的應用空間在檢索和組合知識方面的證明通過環境的觀察和反饋sample-efficient方式。作為展示的起點我們將檢索機制切換為從ConceptNet手動選擇的信息。我們通過提取ConceptNet中實體之間的常識路徑(對應于TWC游戲中的對象及其目標位置)來手動檢索相關的常識知識。手動子圖包括對象與其位置之間的所有相關最短路徑,在兩個節點的2跳鄰居擴展范圍內。由于提取的子圖可能非常大,即使是簡單的游戲,進一步修剪執行去噪。我們強調手工注釋可能容易出錯,或者導致缺少潛在有用信息的手工子圖。因此,手工圖不應該被視為黃金標準。然而,我們正在探索其他人工檢索過程,以了解更好的常識性檢索方法是否能在未來帶來改進。在表4中,使用手動圖增強的代理比其他自動檢索機制表現更好(在簡單和中等級別上平均減少2 - 5步)。圖4顯示了Textonly、Text+Commonsense和Text+Manual三個智能體在三個難度水平上的訓練曲線。我們注意到,注入常識知識可以在代理所采取的步驟數量和最終得分方面實現更快的收斂。我們發現,提取的手工子圖并不完美,從中等和硬水平的訓練曲線可以看出
人類在TWC上的表現:
我們還展示了TWC中人類性能的結果(在第2.4節中概述)。表4中的O和H列(每個條件兩個)顯示了這些結果。對這些數字的快速比較揭示了兩個主要結果:(1)在所有3種情況下,人類的表現H非常接近于最佳步數O;(2) H與表中所有其他代理(包括帶有手動圖的代理)之間存在顯著的凈空空間。這說明,要解決這類問題,對常識知識的有效檢索和編碼仍有很大的進步;TWC可以刺激進一步的研究。
4.2 Generalization
Table 4報告了在訓練時屬于同一分布(IN)的測試游戲的結果,以及從不同的實體集(OUT)生成的游戲的結果。我們在這兩種情況下都看到了類似的趨勢。在所有情況下,常識增強的代理都優于純文本代理。然而,所有的代理,包括那些利用常識知識的代理,從in到OUT分布表現出類似的性能下降。這與在其他NLP任務(如文本蘊涵)中使用知識圖形成對比,其中知識圖已被證明對基礎(培訓和測試)環境的變化具有健壯性(Kapanipathi等人,2020;陳等人。2018)。設計對這些變化具有健壯性的知識支持代理的任務是TWC可以評估的社區的另一個公開挑戰。
結果總結:
我們的研究結果表明,在TWC環境中,通過常識知識增強的代理比基于文本的代理表現出更好的性能。基于人工檢索子圖、最優步驟和人工性能數字的實驗,我們表明TWC有足夠的空間進行未來的研究:(1)檢索更多與KBs相關的常識知識;(2)開發這些知識的新媒介/技術。
5.相關工作
RL Environments and TextWorld:
RL環境和TextWorld:游戲是研究基礎語言以及如何利用文本信息進行控制的豐富工具。最近的工作是探索基于文本的RL游戲,學習《文明vii》的策略,多用戶地牢游戲(Narasimhan, Kulkarni和Barzilay 2015)等。我們的工作建立在TextWorld (C?té et al. 2018)沙盒學習環境之上。自從它引入以來,已經有大量的工作致力于改進該基準的性能。TextWorld上最近的一項工作是學習代理人信仰的符號表示。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Adhikari等人(2020)提出了GATA。這兩種方法都將游戲狀態表示為信念圖。這張圖是用來修剪行動空間,以一種不同于我們使用常識的工作方式進行有效探索。LeDeepChef系統(Adolphs和Hofmann 2019)也與我們的工作有關。他們通過FreeBase中最常見的食物列表來監督模型,從而實現轉移(Bollacker et al. 2008),允許他們的代理推廣到迄今為止從未見過的食譜和配料。Zahavy等人(2018)提出了動作消除深度q -網絡(AE-DQN),它學習預測文本冒險游戲《Zork》中的無效動作。這個網絡允許模型有效地處理大的動作空間。在我們的工作中使用常識性知識可能會產生降低不可信行為權重的同樣效果。
有效推廣推廣的外部知識:在推廣推廣方法中加入先驗或外部知識的嘗試很少。值得注意的是,Garnelo、Arulkumaran和Shanahan(2016)提出了深度符號RL,將符號AI的各方面與神經網絡和RL結合起來,作為引入常識先驗的一種方式。還有關于政策轉移的研究(Bianchi et al. 2015),研究在一個環境中獲得的知識如何在另一個環境中重用;體驗回放(Wang et al. 2016;Lin 1992, 1993),該研究研究了如何存儲agent以前的經驗,然后在以后重用。在本文中,我們使用常識知識作為一種方法來提高基于文本的RL代理的樣本效率。據我們所知,目前還沒有研究如何使用常識來提高RL代理的效率。最相關的之前工作是Martin、Sood和Riedl(2018),他們使用常識性規則構建了可以玩桌面角色扮演游戲的代理。然而,與我們的工作不同的是,這項工作中的常識性規則是人工設計的.
利用常識:最近,在NLP中有許多將常識用于QA、NLI等的工作。(Sap等,2019;Talmor等人,2018年)。許多這些方法都試圖通過減少從ConceptNet檢索到的噪聲來有效利用它(Lin等人2019;Kapanipathi et al。2020)。這也是TWC的一個關鍵挑戰。
6.結論
我們創建了一個新的環境(TWC)來評估RL代理在需要常識的文本游戲中的表現。我們引入了一個跟蹤世界狀態的代理框架;利用順序上下文從知識圖中動態檢索相關常識知識;并學會將這兩種不同的模式結合起來。與純文本模型相比,我們的具有常識的代理以更高的效率和更少的探索實現了目標,從而顯示了我們的新環境和模型的價值。因此,我們相信我們的TWC環境提供了有趣的挑戰,可以有效地用于推動該領域的進一步研究。
總結
以上是生活随笔為你收集整理的Text-based RL Agents with Commonsense Knowledge:New Challenges, Environments and Baselines的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pythonabs怎么用_python
- 下一篇: cartographer 代码分析