Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge
摘要
在本文中,我們考慮了利用基于文本的環(huán)境和游戲作為評估環(huán)境來評估強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)展的最新趨勢。這種對文本的依賴使自然語言處理的進(jìn)步進(jìn)入了這些代理的范圍,一個(gè)循環(huán)的線程是使用外部知識來模仿和更好的人類水平的性能。我們展示了一個(gè)這樣的代理實(shí)例,它使用來自ConceptNet的常識知識,在兩個(gè)基于文本的環(huán)境中顯示出良好的性能。
1.介紹
多年來,模擬環(huán)境和游戲被廣泛用于展示和推動強(qiáng)化學(xué)習(xí)技術(shù)的進(jìn)步。最近一個(gè)受到廣泛關(guān)注的環(huán)境是TextWorld (TW) (C?oté等人,2018),其中一個(gè)代理必須與外部環(huán)境交互以實(shí)現(xiàn)目標(biāo),同時(shí)最大化的回報(bào)-所有這些都只使用文本的模式。TextWorld和類似的基于文本的任務(wù)試圖為基于代理的強(qiáng)化學(xué)習(xí)技術(shù)帶來自然語言處理(NLP)和問題回答解決方案的進(jìn)步,反之亦然。
在一些NLP任務(wù)的解決方案中,一個(gè)固有的共同線索是,單純的基于文本的技術(shù)無法達(dá)到或超過人類水平的性能,NLP系統(tǒng)必須學(xué)會如何利用來自外部來源的額外知識,如知識庫(KBs)和知識圖(KGs),以提高其整體性能。圖1展示了一個(gè)運(yùn)行中的例子來說明這一點(diǎn):在圖中,代理必須有效利用的額外知識顯示在左下角的ConceptNet標(biāo)題下。
圖1:我們的《Kitchen Cleanup》游戲示意圖。機(jī)器人通過短信感知世界,并被賦予打掃廚房的任務(wù)。如這里所示,代理可以利用來自ConceptNet的常識知識來減少探索并實(shí)現(xiàn)目標(biāo)。
一般來說,利用外部知識來提高自然語言處理任務(wù)的準(zhǔn)確性已經(jīng)引起了社會的極大關(guān)注。特別是像自然語言推理(NLI)這樣的任務(wù),最近的工作(Kapanipathi等人,2020;Wang et al., 2019)的研究表明,雖然外部知識可以帶來有用的信息,但這必須與輸入系統(tǒng)的新信息的上下文相關(guān)性相平衡。如果這一點(diǎn)做得不好,就會有非常大的風(fēng)險(xiǎn),讓代理/算法承受過多的信息,導(dǎo)致糟糕的決策和性能。
在本文中,我們提出了一種利用概念網(wǎng)中的外部知識的新方法(Liu和Singh, 2004;Speer et al., 2017)知識圖,以減少強(qiáng)化學(xué)習(xí)(RL) agent的探索空間。具體來說,我們考慮一個(gè)基于RL的代理,它能夠在兩個(gè)層次上對周圍的世界建模——一個(gè)描述其當(dāng)前對世界狀態(tài)的信念的局部或信念圖;以及與這種狀態(tài)相關(guān)的實(shí)體的全局或常識性圖表——以及這兩個(gè)層次之間的相互作用。信念圖為代理提供了一種象征性的方式來表示其當(dāng)前對世界的感知,它可以很容易地與常識圖中的象征性常識知識相結(jié)合。這個(gè)世界及其知識的兩級表示遵循圖輔助變壓器代理(GATA) (Adhikari等人,2020)框架中提出的模型。
使用這個(gè)模型,我們能夠展示在TextWorld設(shè)置中設(shè)置的廚房清理任務(wù)中RL代理的性能的顯著提高。圖1展示了這樣一個(gè)廚房清理任務(wù)的示例:給代理一個(gè)初始觀察(用于生成代理的信念圖的第一次迭代),最終目標(biāo)是清理廚房。代理必須生成實(shí)現(xiàn)該目標(biāo)所需的行動列表:該列表在右側(cè)。最后,來自ConceptNet知識圖的額外外部知識(它構(gòu)成了我們代理的全局圖)顯示在左下角。在這個(gè)運(yùn)行的例子中,agent可能會從ConceptNet發(fā)現(xiàn)蘋果通常位于冰箱中,而盤子位于櫥柜中。我們將使用這個(gè)廚房清理實(shí)例作為貫穿全文的一個(gè)運(yùn)行示例。
通過評估我們在兩個(gè)不同任務(wù)上的方法——如上所述的廚房清理任務(wù)和一個(gè)額外的烹飪食譜任務(wù)——我們可以表明,與純基于文本的模型相比,信念圖和常識圖之間的交互可以減少RL代理的探索。然而,我們也能夠證明一個(gè)更微妙的點(diǎn):僅僅為代理提供常識性知識不足以提高其性能。事實(shí)上,通常情況下這對代理人的表現(xiàn)是有害的。我們將說明這是由于代理被太多的常識知識所壓倒,并討論不同的任務(wù)和設(shè)置如何對代理使用的知識有不同的需求。
2.相關(guān)工作
我們從與我們關(guān)注的領(lǐng)域相關(guān)的工作開始,我們將其分為以下三個(gè)主要領(lǐng)域。我們的工作位于知識圖和常識(和外部)知識的交匯點(diǎn),以使強(qiáng)化學(xué)習(xí)更有效;我們的改進(jìn)展示在TextWorld和鄰近的基于文本的域。
2.1 Knowledge Graphs
圖表已經(jīng)成為一種表示知識的常見方式。這些知識圖由一組由關(guān)系(邊)連接起來的概念(節(jié)點(diǎn))組成。眾所周知的公開的知識圖(KGs)包括Freebase (Bollacker等人,2008年),DBpedia (Auer等人,2007年),WordNet (Miller, 1995年)和ConceptNet (Speer等人,2017年)。每一種知識圖譜都包含不同類型的知識。對于我們工作中考慮的任務(wù),我們發(fā)現(xiàn)在ConceptNet中可用的常識知識比來自DBpedia或Freebase的百科知識更適合——因此我們關(guān)注這一點(diǎn)。因?yàn)槲覀兊姆椒ㄕJ(rèn)為KG是一種通用的圖結(jié)構(gòu),所以可以使用這里提到的任何KG結(jié)構(gòu)。
知識圖已被用于執(zhí)行推理,以提高各個(gè)領(lǐng)域的性能,特別是在NLP社區(qū)內(nèi)。特別是,KGs已被用于諸如實(shí)體鏈接(Hoffart等人,2012)、問題回答(Sun等人,2018;Das等人,2017;Atzeni和Atzori, 2018),情感分析(調(diào)養(yǎng)等人,2015;Atzeni等人,2018)和自然語言推理(Kapanipathi等人,2020)。已經(jīng)探索了不同的技術(shù)來使用它們。在大多數(shù)情況下,知識圖嵌入如TransH (Wang et al., 2014)和ComplEx (Trouillon et al., 2016)被用于向量化KG中的概念和關(guān)系,作為學(xué)習(xí)框架的輸入。強(qiáng)化學(xué)習(xí)也被用于在知識庫問答的知識圖中尋找相關(guān)路徑(Das et al., 2017)。Sun等人(2018)和Kapanipathi等人(2020)從對應(yīng)的KGs中找到子圖,并使用圖卷積網(wǎng)絡(luò)(Kipf和Welling, 2016)對它們進(jìn)行編碼,分別用于問題回答和自然語言推理。
2.2樣本高效強(qiáng)化學(xué)習(xí)的外部知識
當(dāng)前強(qiáng)化學(xué)習(xí)(RL)技術(shù)面臨的一個(gè)關(guān)鍵挑戰(zhàn)是樣本效率低(Kaelbling et al.1998)。RL技術(shù)需要與環(huán)境進(jìn)行大量的交互,這可能非常昂貴。這阻礙了RL在現(xiàn)實(shí)世界決策問題中的使用。相比之下,人類擁有豐富的常識知識,可以幫助他們在信息不完整的情況下解決問題。
受此啟發(fā),最近有一些嘗試將先驗(yàn)或外部知識添加到RL方法中。值得注意的是,Garnelo等人(2016)提出了深度符號RL,它將符號AI與神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合,作為引入常識先驗(yàn)的一種方式。然而,他們的工作主要是理論性的。也有一些關(guān)于政策轉(zhuǎn)移的研究(Bianchi et al., 2015),研究在一個(gè)環(huán)境中獲得的知識如何在另一個(gè)環(huán)境中重復(fù)使用;和體驗(yàn)回放(Wang et al., 2016;Lin, 1992, 1993),它研究了代理之前的經(jīng)驗(yàn)如何被存儲,然后再利用。與上述不同,在本文中,我們探索使用存儲在知識圖(如ConceptNet)中的常識性知識來提高基于文本的RL代理的樣本效率。據(jù)我們所知,之前沒有研究過如何使用常識知識使RL代理更有效。
2.3RL環(huán)境和TextWorld
游戲是一個(gè)豐富的領(lǐng)域,用于研究基礎(chǔ)語言和如何將文本信息用于受控應(yīng)用。值得注意的是,在這方面的研究中,Branavan等人(2012)創(chuàng)造了一款基于rl的游戲玩家,利用文本手冊學(xué)習(xí)《文明2》的策略;和Narasimhan等人(2015)為多用戶地下城游戲構(gòu)建了一個(gè)基于rl的游戲玩家。在這兩種情況下,分析文本和控制策略是聯(lián)合學(xué)習(xí)使用反饋的游戲環(huán)境。同樣地,在視覺領(lǐng)域,人們也致力于創(chuàng)造自動電子游戲玩家(Koutn′?k et al., 2013;Mnih等人,2016)。
我們的工作基于最近推出的基于文本的游戲TextWorld (C?oté等人,2018)。TextWorld是一個(gè)沙盒學(xué)習(xí)環(huán)境,用于在基于文本的游戲中訓(xùn)練和評估基于rl的代理。自從引入它和其他類似的工具以來,已經(jīng)有大量的工作致力于提高這個(gè)基準(zhǔn)的性能。TextWorld的一個(gè)有趣的工作方向是學(xué)習(xí)代理對世界狀態(tài)的信念的符號(通常是圖形)表示。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Adhikari等人(2020)提出了GATA;兩者都將游戲狀態(tài)表示為探索過程中學(xué)習(xí)到的信念圖。此圖用于修剪操作空間,使探索更有效。類似的構(gòu)建動態(tài)信念圖的方法也在程序文本的機(jī)器理解中得到了探索(Das等人,2018年)。在我們的工作中,我們也用信念圖來表示世界。此外,我們還探索如何將信念圖與常識知識結(jié)合起來進(jìn)行有效的探索。
LeDeepChef系統(tǒng)(Adolphs and Hofmann, 2019)研究了基于文本的RL代理在不熟悉的家庭環(huán)境中學(xué)習(xí)將烹飪技能轉(zhuǎn)移到從未見過的食譜時(shí)的泛化能力,這也與我們的工作有關(guān)。他們通過使用Freebase中最常見的食物列表來監(jiān)督模型,從而實(shí)現(xiàn)轉(zhuǎn)移,允許他們的代理推廣到迄今未見過的食譜和配料。
最后,Zahavy等人(2018)提出了行動消除深度q -網(wǎng)絡(luò)(AE-DQN),它學(xué)習(xí)預(yù)測文本冒險(xiǎn)游戲《Zork》中的無效行動,并使用上下文強(qiáng)盜消除它們。這使得模型能夠有效地處理較大的操作空間。在我們的工作中使用常識知識,可能會對不可信的行為產(chǎn)生同樣的影響。
3.TextWorld as a POMDP
基于文本的游戲可以被視為部分可觀察的馬爾可夫決策過程(POMDP) (Kaelbling et al., 1998),其中系統(tǒng)動態(tài)是由MDP決定的,但代理不能直接觀察潛在狀態(tài)。當(dāng)一個(gè)代理與一個(gè)TextWorld游戲?qū)嵗换r(shí),在每個(gè)回合中,有幾行文本描述游戲的狀態(tài);玩家可以發(fā)出文本命令以某種理想的方式改變狀態(tài)(游戲邦注:通常是為了朝著目標(biāo)前進(jìn))。
形式上,讓(S,T,A,Ω,O,R,γ)表示底層的TextWorld POMDP。其中,S表示狀態(tài)集,A表示作用空間,T表示狀態(tài)轉(zhuǎn)移概率,Ω表示觀測集,O表示條件觀測概率集,γ∈[0,1]為折現(xiàn)因子。agent在時(shí)間步t的觀察值依賴于當(dāng)前狀態(tài)st和之前在at?1的動作。agent在時(shí)間步t收到獎勵:rt = R(st,at), agent的目標(biāo)是使期望的獎勵折現(xiàn)總和最大化:
TextWorld允許代理通過文本的形式感知環(huán)境并與之交互。
?4.模型描述
圖2:我們的模型在任何給定的時(shí)間步上的決策制定概述。我們的模型由以下組成部分組成:(a)輸入編碼器,編碼可接受的行為和觀察;(b)信念圖,捕捉agent對當(dāng)前狀態(tài)的信念;(c)常識KG,由agent提取的ConceptNet子圖;(d)信念圖和提取的常識KG的知識集成;?
為了解決上述POMDP問題,我們設(shè)計(jì)了一個(gè)模型,該模型可以利用常識知識并學(xué)習(xí)其世界狀態(tài)信念的圖結(jié)構(gòu)表示。該模型的高層架構(gòu)包含三個(gè)主要組件,即輸入編碼器、基于圖形的知識提取器和動作預(yù)測模塊。
輸入編碼層用于編碼時(shí)間步長t的觀測值和可容許動作列表。
基于圖的知識提取器試圖從兩個(gè)不同的來源提取知識。
首先,利用外部常識性知識,提高agent在每個(gè)時(shí)間步選擇正確動作的能力;
其次,agent感知到的關(guān)于環(huán)境(世界狀態(tài))的信念也被一個(gè)信念圖捕獲,這個(gè)信念圖是根據(jù)游戲中的文本觀察動態(tài)生成的。然后將來自兩個(gè)源的信息聚合到一個(gè)圖中。
動作預(yù)測模塊以編碼后的觀察預(yù)留狀態(tài)、編碼后的可接受動作列表和編碼后的聚合圖作為輸入,對每一步預(yù)測一個(gè)動作。圖2提供了我們方法的精簡可視化。我們將在下面描述模型的各個(gè)組件。
4.1輸入編碼
?o--->x???? a---->c
?4.2基于圖的知識集成
我們增強(qiáng)了基于文本的RL代理,允許它訪問一個(gè)圖表,該圖表捕捉了常識知識和代理當(dāng)前對世界狀態(tài)的信念。形式上,我們假設(shè),在每個(gè)時(shí)間步t,代理訪問一個(gè)圖Gt = (Vt,Et),其中Vt是節(jié)點(diǎn)的集合,Et?V 2t表示圖的邊。圖在每一步t動態(tài)更新,并根據(jù)文本觀察增加或刪除新的節(jié)點(diǎn)。
?
如前所述,Gt編碼了常識知識和世界國家的信仰。通過將文本中提到的實(shí)體Actions鏈接到外部KG,常識知識從觀察的歷史中提取出來。這允許提取常識知識圖,這是外部知識來源的子圖,提供有關(guān)相關(guān)實(shí)體的信息。在我們的實(shí)驗(yàn)中,我們使用ConceptNet (Speer et al., 2017)作為外部知識圖。另一方面,在Adhikari等人最近的工作中,觀察結(jié)果也被用于更新動態(tài)生成的信念圖。基于實(shí)體提及,通過合并信念知識圖和常識知識圖來實(shí)現(xiàn)圖的聚合。這有助于減少從更新信念圖和常識圖中提取的噪聲。如圖2所示,根據(jù)觀察結(jié)果更新常識知識圖和信念圖,然后將它們聚合成單個(gè)圖Gt。圖Gt在時(shí)間步長t時(shí),由圖編碼器處理如下。首先,利用預(yù)訓(xùn)練的KG嵌入將節(jié)點(diǎn)集Vt映射為特征矩陣
?
(圖卷積網(wǎng)絡(luò))層(Kipf and Welling, 2016),其中L是模型的超參數(shù)。這個(gè)過程的輸出是一個(gè)更新的矩陣Zt = [z1t,…,z|V | t]∈Rh×|Vt|。然后我們通過對Zt的列進(jìn)行簡單的平均,來計(jì)算一個(gè)編碼gt為gt的圖,即:
在我們的實(shí)驗(yàn)中,除了圖編碼gt之外,我們使用更新的KG嵌入為每個(gè)動作創(chuàng)建一個(gè)基于圖的編碼向量,如4.1節(jié)所述。這種方法已經(jīng)證明在每個(gè)時(shí)間步驟中可以更好地集成知識圖。
4.3行動的預(yù)測
?
其中W1,W2,b1, b2是模型的可學(xué)習(xí)參數(shù)。然后,代理選擇的最終操作將由具有最大概率得分的操作給出,即?at = arg maxi pt,i。
4.4學(xué)習(xí)
遵循FirstTextWorld競賽的獲勝策略(Adolphs和Hofmann, 2019年),我們使用優(yōu)勢行動者-批評者(A2C)框架(Mnih等人,2016年)來訓(xùn)練agent,并優(yōu)化訓(xùn)練游戲獎勵信號的行動選擇器。
5.實(shí)驗(yàn)
在本節(jié)中,我們報(bào)告了一些實(shí)驗(yàn),以研究基于常識的RL代理在TextWorld環(huán)境中的作用。我們在兩組游戲?qū)嵗性u估和比較我們的代理:1)Kitchen Cleanup Task和2)Cooking Recipe Task。
5.1廚房清理任務(wù)
首先,我們使用TextWorld (C?oté等人,2018)生成一個(gè)游戲/任務(wù),使用常識知識圖(如ConceptNet)來評估性能增益。我們生成的游戲包含10個(gè)與游戲相關(guān)的物體,以及5個(gè)分散在房間中的分散物體。代理人的目標(biāo)是通過把物品放在正確的地方來整理房間(廚房)。我們?yōu)榇韯?chuàng)建了一組現(xiàn)實(shí)的廚房清潔目標(biāo):例如,從桌子上拿走蘋果,把蘋果放進(jìn)冰箱。由于映射到房間里物體的概念信息明確地在ConceptNet中提供(蘋果→AtLocation→冰箱),創(chuàng)造這款游戲的主要假設(shè)是,利用常識知識可以讓代理獲得更高的獎勵,同時(shí)減少與環(huán)境的交互次數(shù)。
向智能體提供廚房的文本描述,包括廚房中不同物體的位置以及它們與其他物體的空間關(guān)系。代理使用此信息來選擇在環(huán)境中執(zhí)行的下一個(gè)操作。每當(dāng)代理獲取一個(gè)對象并將其放在目標(biāo)位置時(shí),它就會獲得獎勵,其總得分將增加1分。agent在這個(gè)廚房清理任務(wù)中所能獲得的最大分?jǐn)?shù)是10。除了文本描述外,我們還基于文本描述從概念網(wǎng)中提取常識知識圖。圖3顯示了在代理與環(huán)境交互期間創(chuàng)建的常識知識圖的一個(gè)實(shí)例。請注意,即使對于我們建模的簡單廚房清理任務(wù)(參見圖1獲取詳細(xì)信息),常識知識圖也包含超過20個(gè)實(shí)體(節(jié)點(diǎn))和類似數(shù)量的關(guān)系(邊)。這種可視化是有用的,因?yàn)樗鼮槲覀兗磳⑦M(jìn)行的關(guān)于代理被太多常識淹沒的討論提供了基礎(chǔ)。
圖3:從概念網(wǎng)中提取廚房清理任務(wù)的常識知識圖示例
廚房清潔的結(jié)果
我們將我們的知識感知RL代理(KG Full和KG evolution)與兩個(gè)基線進(jìn)行性能比較:隨機(jī),代理在每一步隨機(jī)選擇一個(gè)動作;以及Simple,即代理只使用文本描述選擇下一個(gè)動作,而忽略常識知識圖。另一方面,具有知識感知的RL代理使用常識知識圖來選擇下一步行動。該圖表以一種完整圖表的形式呈現(xiàn),即在游戲開始時(shí)呈現(xiàn)所有對象之間的常識性關(guān)系(KG Full);或者進(jìn)化圖設(shè)置,其中只有代理看到/交互的對象之間的常識性關(guān)系,直到顯示當(dāng)前步驟(KG Evolve)。我們記錄每個(gè)代理取得的平均分?jǐn)?shù)以及與環(huán)境的平均交互(移動)次數(shù)作為我們的評估指標(biāo)。圖4顯示了廚房清理任務(wù)平均運(yùn)行5次后的結(jié)果,每次運(yùn)行500集。
圖4:有和沒有常識知識(Conceptnet)的Kitchen Cleanup任務(wù)的代理與平均分?jǐn)?shù)和平均移動(平均超過5次運(yùn)行)的比較。
廚房清潔的探討?
正如預(yù)期的那樣,我們看到使用文本描述和常識知識的代理比基線隨機(jī)代理表現(xiàn)更好。我們也能夠清楚地證明,在agent的學(xué)習(xí)過程中,知識感知型agent在常識知識的幫助下逐漸超越簡單agent,使agent更加專注于探索,并推動其向與其他目標(biāo)相關(guān)的概念發(fā)展。這些結(jié)果也可以被視為對更廣泛的NLP文獻(xiàn)(Kapanipathi等人,2020)中顯示的類似結(jié)果的以rl為中心的代理驗(yàn)證。
5.2烹飪食譜任務(wù)
接下來,我們通過使用由(Adhikari et al., 2020)生成的20個(gè)不同的游戲來評估我們的代理在烹飪食譜任務(wù)上的表現(xiàn)。這些游戲遵循基于食譜的烹飪主題,在一個(gè)房間中只有一種原料(難度等級1)。游戲的目標(biāo)是收集特定的原料,從給定的食譜中準(zhǔn)備一頓飯。
與前面的任務(wù)一樣,我們將我們的代理與Simple代理進(jìn)行比較。除了簡單的代理,我們還將我們的代理與GATA代理(Adhikari等人,2020)進(jìn)行比較,后者使用信念圖進(jìn)行有效的規(guī)劃和推廣。正如本文所使用的那樣,基于環(huán)境的文本描述,信念圖表示當(dāng)前游戲的狀態(tài)。與常識知識類似,信念圖可以作為一個(gè)完整圖(GATA Full)或一個(gè)進(jìn)化圖(GATA Evolve)提供給代理,然后聚合為當(dāng)前圖。值得注意的是,在TextWorld環(huán)境中,全信度圖被認(rèn)為是基礎(chǔ)真值狀態(tài)信息:它是TextWorld環(huán)境內(nèi)部用來修改狀態(tài)信息和允許行為列表的圖。另一方面,基于觀測狀態(tài)信息生成演化信念圖。
烹飪食譜的結(jié)果
我們將簡單的和GA的TA代理與我們的使用從ConceptNet中提取的常識知識的代理進(jìn)行比較。與之前一樣,我們考慮的是全圖設(shè)置和進(jìn)化圖設(shè)置,即在游戲一開始便提供完整的常識圖,或者隨著游戲的發(fā)展而逐步提供。對于這個(gè)任務(wù),我們將常識知識圖與信念圖(信念+KG充分和信念+KG進(jìn)化)進(jìn)行聚合。圖5顯示了平均運(yùn)行5次并運(yùn)行20個(gè)游戲后的結(jié)果,每次運(yùn)行100集。如前所述,所有的代理都優(yōu)于簡單代理,這表明使用不同的狀態(tài)表示(如信念圖)和附加信息(如常識知識)可以提高代理的性能。
圖5:用于Cooking Recipe任務(wù)的代理與信念圖和/或常識圖的比較(平均超過5次運(yùn)行)。
烹飪食譜的探討?
我們觀察到,GATA和believe +KG的進(jìn)化圖設(shè)置都比believe +KG Full的表現(xiàn)更好,因?yàn)檩斎敫嗟男畔?dǎo)致前面任務(wù)中觀察到的噪聲探索。更有趣的是,我們觀察到GATA Full的性能明顯優(yōu)于其他制劑。我們認(rèn)為造成這一結(jié)果的原因在于任務(wù)的難度以及這些烹飪游戲的生成過程。因?yàn)榕腼兪匙V任務(wù)(難度等級1)需要從代理所在的同一個(gè)房間中檢索單一的原料,所以不存在與當(dāng)前狀態(tài)相關(guān)的有意義的概念,可以從常識知識中獲得更好的探索。即使在這個(gè)游戲環(huán)境中設(shè)置了困難的任務(wù)(游戲邦注:難度達(dá)到10級,3種食材分布在6個(gè)房間中),食材也是隨機(jī)選擇并分布在各個(gè)房間中。在這樣的游戲設(shè)置中,基礎(chǔ)真理全信念圖比常識知識圖更有益。這是一個(gè)有趣的負(fù)面結(jié)果,因?yàn)樗砻?#xff0c;仍然存在常識知識不一定能幫助代理的場景和領(lǐng)域。我們正在積極探索烹飪食譜任務(wù)的進(jìn)一步設(shè)置,以便更好地理解和框架這一效果。
6.結(jié)論
以前的文本游戲方法,如TextWorld,主要關(guān)注文本理解和強(qiáng)化學(xué)習(xí)控制策略,因此樣本效率不高。比之下,人類利用他們的常識知識在世界上有效地行動。作為彌補(bǔ)這一差距的一個(gè)步驟,我們研究了使用常識性知識為基于文本的游戲構(gòu)建高效的RL代理的新問題。我們提出了一種技術(shù),它象征性地表示代理對世界的信念,然后將這種信念與ConceptNet知識圖中的常識知識結(jié)合起來,以便在世界中行動。我們在多個(gè)任務(wù)和環(huán)境中評估了我們的方法,并表明常識性知識可以幫助代理高效和準(zhǔn)確地行動。我們還展示了一些有趣的負(fù)面結(jié)果,即代理被太多的常識所淹沒。我們目前正在積極研究這一問題,未來的工作將更詳細(xì)地報(bào)道這一現(xiàn)象。
總結(jié)
以上是生活随笔為你收集整理的Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 火车票预订系统(C语言“动态链表”、“文
- 下一篇: php编写程序百马百担问题_编程,百马百