Relational Reinforcement Learning: An Overview
Abstract
關系強化學習(RRL)既是一個年輕的領域,又是一個古老的領域。 在本文中,我們追溯了該領域的歷史和相關學科,概述了一些當前的工作和有希望的新方向,并調查了未來的研究問題和機會。
Introduction
長期以來,將學習與解決問題相結合一直是人工智能的夢想。 盡管這似乎與分而治之的原則背道而馳,但仍有許多充分的理由采用這種綜合方法。 解決問題通常在計算上很困難,并且如果不學習,agent將無法利用自身的經(jīng)驗來提高將來解決問題的效率。 另一方面,孤立學習取決于外部專業(yè)知識來決定哪些值得學習并提供訓練數(shù)據(jù)。 這樣的專業(yè)知識并非總是可用,并且在可用時通常很昂貴。 因此,諸如LEX(Mitchell等,1983),SOAR(Laird等,1986)和Prodigy(Minton等,1989)之類的系統(tǒng)開創(chuàng)了將問題解決與學習相結合的方法,盡管他們具有完整的知識和正確的領域模型,并在一個完全可觀察和確定性的世界中。
基于馬爾可夫決策過程理論的強化學習(RL)放寬了其中的一些假設,包括確定性和對領域模型的全面了解(Kaelbling等,1996; Bertsekas&Tsitsiklis,1997; Sutton&Barto,1998)。 agent沒有被提供完整和正確的領域理論,而是處于一種環(huán)境中,可以通過采取行動并接受積極或消極的強化,與agent進行交互以收集領域知識。 agent的主要目標是學習一種基于其當前狀態(tài)選擇其行為的方法,即學習一種將狀態(tài)映射到行為的策略,從而優(yōu)化性能指標,例如每個時間步長收到的預期平均獎勵。
強化學習為構建智能agent提供了一個通用框架和一系列方法,這些智能agent可以在最少的監(jiān)督下優(yōu)化其在隨機環(huán)境中的行為。 但是,不幸的是,目前RL中的大多數(shù)工作都是基于命題表示法,這使其很難將其應用于復雜的現(xiàn)實世界任務,例如從Web檢索信息,自然語言處理或在諸如現(xiàn)實世界這樣豐富的領域中進行規(guī)劃,如烹飪。 命題RL在此類領域中的成功應用通常只有通過對命題特征進行專業(yè)的人工構造才能實現(xiàn)。 這些領域中的狀態(tài)和動作更自然地以關系形式表示,并且人們似乎經(jīng)常在學習和泛化中利用豐富的關系結構。 問題自然而然地出現(xiàn)了:這是怎么做的?
在本概述文章中,我們激勵RRL嘗試回答這個問題,將其置于歷史背景下,概述一些有前途的方法和新方向,并討論該領域中的一些開放研究問題。
Motivation
考慮一個典型的網(wǎng)絡問題解答任務(Berners-Lee等,2001; Fensel等,2002),該任務可能涉及訪問和集成來自網(wǎng)絡的半結構化信息以回答一個復雜的查詢,例如“查找西海岸的一所研究生院,這里有經(jīng)濟適用房,多個教職員工,并且資助了人工智能方面的研究。”即使以正式的查詢語言提出查詢,要回答該問題,也需要一些技能,例如查詢計劃,優(yōu)化,信息提取以及以關系語言進行信息集成。或考慮學習烹飪一頓飯涉及什么。雖然當然不是詳盡無遺的清單,但需要推理一下人們的口味和喜好,自己對食譜和技能的了解,配料的可用性,使用地點,使用它們的程序,器皿和炊具的容量以及所產(chǎn)生的影響不同成分的比例,烹飪溫度以及不同類型的烹飪過程對最終產(chǎn)品的口味和質量的影響。
容易將這兩個問題都視為強化學習問題。 在這兩個任務中,我們可能會因花費的時間和其他費用而對系統(tǒng)進行懲罰,并為最終產(chǎn)品的質量而給予獎勵。 然而,問題在于,網(wǎng)的結構和烹飪任務中涉及的推理最自然地使用關系表示來表示。 這給RL在這些領域的成功提出了若干挑戰(zhàn)。
Function Approximation: 當應用于關系域時,通常在RL(例如神經(jīng)網(wǎng)絡或回歸樹)中使用的值函數(shù)近似不能很好地泛化。 部分原因是因為這些表示不適合表示關系知識的任務。 當它們成功時,他們需要仔細選擇專門針對手頭特定任務手工設計的命題特征或基本功能。 設計在存在時利用關系結構的函數(shù)逼近方案是一個嚴峻的挑戰(zhàn)。
Generalization Across Objects: RL方法不能明確表示對象及其之間的關系,因此從一個對象學習到相似的相關對象的能力從根本上受到限制。 這里的關鍵挑戰(zhàn)是識別被認為是“相似”的對象的類,在這些類上證明這種泛化是合理的,以及識別和表示適合傳遞的知識。
Transfer across Tasks: RL程序通常在單個任務上進行測試,并且不會表現(xiàn)出跨任務的知識轉移。 給定域中的每個任務,例如信息檢索中的每個查詢,在按命題制定時可能看起來完全不同,因此可能需要單獨的訓練才能收斂。 關系表示便于將相關任務的廣泛集合表述為單個域,從而在這些相關任務之間產(chǎn)生自然的泛化。
Run-time Planning and Reasoning: 在大多數(shù)強化學習工作中,運行時沒有刻意的規(guī)劃和推理。 默許地假定所有規(guī)劃都是離線進行的,或者系統(tǒng)完全依靠探索和學習來構造好的規(guī)劃,從而將運行時執(zhí)行減少為被動行為。 但是,復雜的動態(tài)域既需要考慮又需要反應,正如成功的游戲程序所證明的那樣。 似乎值函數(shù)的近似性質要求在運行時進行更精細的搜索以補償其誤差。 推理在構建新功能以改進值函數(shù)近似中也可能很重要。
Prior Knowledge: RL不再強調先驗知識在學習和推理中的作用,因此依賴于嘗試和錯誤學習,這是非常低效的,并且通常無法擴展到諸如上述的更復雜的任務。
關系強化學習(RRL)試圖通過將RL概括為關系表示的狀態(tài)和動作來解決所有上述問題。 實際上,強化學習和關系學習都有悠久的歷史。 強化學習的研究始于1959年塞繆爾(Samuel)在跳棋方面的開創(chuàng)性工作(Samuel,1990)。 關系學習的工作始于溫斯頓關于塊世界學習的工作(溫斯頓,1975年)。 近年來,以不同的名稱研究關系學習,包括歸納邏輯規(guī)劃,關系數(shù)據(jù)挖掘和概率關系建模。 強化學習也以多種方式進行了研究,其中神經(jīng)動態(tài)規(guī)劃和決策理論規(guī)劃最為人所知。
也許不太明顯,并且正如引言中所提到的,強化學習也與加速學習以及SOAR和Prodigy等系統(tǒng)密切相關。確實,經(jīng)典的《機器學習閱讀》(Shavlik&Dietterich,1990)將塞繆爾的工作歸類于加速學習。這是有道理的,因為在加速學習中,學習任務被視為通過學習適當?shù)目刂浦R(即,學習在什么時候或某個策略時該做什么)來加速暴力問題解決者。盡管遵循經(jīng)典計劃范式的提速學習工作并未考慮動態(tài)域和隨機性,但從一開始就采用了關系表示。加速學習與強化學習之間的另一個區(qū)別是,在加速學習中,假定給出了領域理論,即動作模型和即時獎勵函數(shù),而在RL中,僅提供了仿真模型。
關系強化學習(RRL)將狀態(tài)和動作的關系表示形式的表現(xiàn)力以及強化學習的動態(tài)性和隨機性結合在一起,從而為學習創(chuàng)造了一個非常籠統(tǒng)且具有挑戰(zhàn)性的環(huán)境。
Reinforcement Learning
強化學習(RL)的基礎是一種agent,該agent可以使用傳感器感知周圍世界,并通過效應器對周圍世界進行操作,從而與周圍環(huán)境進行交互。除了傳感器和效應器外,agent還獲得了增強或獎勵。通常,環(huán)境可能是隨機的,動態(tài)的,并且只能部分觀察。對于不同的操作定義,agent的目標是以一種行為來優(yōu)化其預期的長期效用,例如,優(yōu)化每步的預期平均報酬或優(yōu)化每一步的幾何折扣的預期總報酬(Puterman, 1994)。
鑒于RL的這個宏偉目標,毫不奇怪的是,即使不是全部,大多數(shù)AI問題都可以在RL框??架中解決。的確,RL可以看作是AI完整問題的集合,或者其解決方案暗示著在該領域的廣泛目標上取得成功的問題之一。但是,當前的方法(接下來將簡要回顧)并沒有處理暗示的環(huán)境豐富性問題。 RRL是彌合這一差距的關鍵步驟,允許RL方法擴展到結構豐富的域中。
強化學習文獻提供了解決RL問題的幾種方法。 “策略梯度”方法在某種語言的指導下,根據(jù)其性能度量相對于其參數(shù)的梯度估計來直接搜索參數(shù)化的策略空間。這些方法的優(yōu)點之一是它們在某些條件下也適用于部分可觀察的環(huán)境。
另一類方法更強烈地依賴于狀態(tài)的可觀察性,并通過學習狀態(tài)或狀態(tài)-動作對上的適當參數(shù)化的實值函數(shù)來間接地學習最佳策略。值函數(shù)的參數(shù)是局部更新的,將當前狀態(tài)的值移至下一個狀態(tài)的值加上任何即時獎勵。在實踐中難以滿足的強大假設下,這些局部更新可以顯示為使值函數(shù)收斂到從給定狀態(tài)(在給定操作下,如果有的話)可以實現(xiàn)的真實期望效用,我們稱之為最佳值。如果已知最佳值函數(shù),則agent可以通過對它貪婪地行動,在每個狀態(tài)下選擇使結果狀態(tài)的期望值最大化的動作來最佳地執(zhí)行。通過剛剛描述的局部更新的某種變體來學習(近似或啟發(fā)式)正確值函數(shù)的方法的集合,統(tǒng)稱為值迭代方法。當要更新的值函數(shù)將值分配給狀態(tài)-動作對時,它稱為Q函數(shù),該方法也稱為Q學習方法。在這兩種情況下,在每個狀態(tài)下局部更新值函數(shù)估計的過程都稱為值函數(shù)回歸,因為可以將其視為通過環(huán)境的動作動力學一步一步使值函數(shù)估計回歸。
尋找最佳策略的一種相關方法是策略迭代,它基于一個簡單的定理:相對于次優(yōu)值函數(shù)V貪婪地行動,將獲得至少與該值函數(shù)指示的值一樣多的值,并且至少有一個值獲得更多的值。換句話說,只要V低估了最優(yōu)值,相對于V的貪婪策略所獲得的價值就大于V。策略迭代以任意的V開始,并針對V的貪婪策略計算改進值函數(shù)V’。然后可以將V’作為V重復此過程,直到找到最佳V。實際上,收斂只需要進行幾次迭代,但是在大狀態(tài)空間中,從多項式中找出V的改進V’的過程雖然是多項式的,但卻很昂貴。為了解決這個問題,在大的狀態(tài)空間中,可以通過對在多個給定的樣本軌跡上從s獲得的效用取平均值,根據(jù)V貪婪地進行操作,在任意給定的狀態(tài)s下對V’進行采樣。這個過程被稱為政策推出(Bertsekas&Tsitsiklis,1997)。給定足夠的V’這樣的樣本,機器學習技術可以學習V’的近似值,即狀態(tài)空間特征的線性組合,從而提供了一種便宜的方式來在大狀態(tài)空間中近似地進行策略迭代。
Relational Reinforcement Learning: State of the Art
在本節(jié)中,我們概述了一些有關關系強化學習的有前途的當前方法。
Relational Regression and Q-learning
通過使用關系回歸,RRL系統(tǒng)(D-zeroski等人,2001)允許將幾乎標準的Q學習應用于在以關系性質為特征的環(huán)境中強化學習問題。
通過將狀態(tài)和動作的關系表示與關系回歸結合使用以進行Q函數(shù)泛化,可以使用結構信息,例如在Q值的描述中存在具有正確屬性的對象或對象之間的關系。結果導致對派生策略的描述。當遇到更復雜或更簡單的任務時,這可以在較小但相關的問題上重用經(jīng)驗。
已經(jīng)開發(fā)了三種用于該RRL系統(tǒng)的回歸算法:TG算法(用于逐步構建一階回歸樹),基于實例的算法(稱為RIB)和基于內核的算法KBR(使用高斯過程作為回歸技術)。
TG算法(Driessens等,2001)是構建一階分類和回歸樹的Tilde算法(Blockeel和De Raedt,1998)與G算法(Chapman和Kaelbling,1991)的結合。有關樹的每個葉子中每個可能擴展的性能的大量統(tǒng)計值,以逐步構建樹。 TG算法使用的關系回歸樹使用一階文字的結合作為內部葉子中的測試。對應于特定葉子的測試是出現(xiàn)在從樹的根到葉子的路徑上的測試的結合,在其中對所有出現(xiàn)的變量進行存在量化。 TG算法采用了源自Tilde系統(tǒng)的用戶定義的精細運算符,以生成可用于替換葉子的可能的一階測試。 TG算法算法存儲在樹的每片葉子中的統(tǒng)計信息包括通過每種可能的測試進行正或負分類的示例數(shù),以及每種情況下Q值和Q值平方的總和。這允許使用F檢驗來決定選擇哪個檢驗。目前,TG尚未進行任何樹重組。該算法做出的所有決定都是最終決定。
基于實例的算法RIB(Driessens和Ramon,2003年)使用k最近鄰預測作為回歸技術,即,它計算存儲在內存中的示例的Q值的加權平均值,其中權重成反比到示例之間的距離。所使用的距離必須能夠處理狀態(tài)和動作的關系表示,并且可以是通用的一階距離(Sebag,1997; Ramon和Bruynooghe,2001),也可以是特定于應用的距離,通常可以是計算效率更高。由于Q學習生成連續(xù)的學習示例流,因此開發(fā)了許多示例選擇方法以減少內存和計算需求。這些選擇標準基于IB2和IB3中使用的選擇標準(Aha等,1991),并研究各個示例對整體預測誤差的影響。
第三種算法稱為KBR(G·artner等,2003a),并使用高斯過程作為回歸技術。高斯過程(MacKay,1997)要求在示例描述之間定義正定協(xié)方差函數(shù)。由于在RRL系統(tǒng)中使用了關系表示,因此必須使用結構化數(shù)據(jù)的內核來完成此任務。這里可能的候選對象是卷積核(Haussler,1999)或在圖上定義的核(Gartner等,2003b)。由于高斯過程是貝葉斯技術,因此KBR算法不僅提供了一個新的未知示例的Q值的基本預測,而且還提供了更多的信息。它還可以指示此估計的預期精度,例如,可以通過Q學習算法將其用于指導探索。
降低Q學習與關系函數(shù)抽象的適用性的主要問題之一是Q值本身的性質,即它們隱式編碼到下一個獎勵的距離和大小。 在隨機和高度混亂的任務中很難預測這些。 在這種情況下,優(yōu)勢學習或策略迭代等其他方法似乎更合適。
Approximate Policy Iteration for RRL
如上所述,可以將近似策略迭代視為從值函數(shù)V移至更好的值函數(shù)V’,或者從相應的貪婪策略π\(zhòng)piπ移至更好的貪婪策略π′\pi 'π′,然后進行迭代。此處,π\(zhòng)piπ關于V貪婪地行動,π′\pi 'π′關于V’貪婪地行動。
直到最近,幾乎所有近似策略迭代的用法都直接表示值函數(shù),但僅隱式表示相應的策略(作為對直接表示的值函數(shù)的貪婪行為)。考慮到廣泛的專家-人的特征工程,這種方法對于命題域可以很好地工作(例如,在TD-gammon中(Tesauro,1995)),但是對于高度結構化的關系域卻沒有成功。由于上述原因,很難為這些高度結構化的域找到良好的近似值函數(shù)表示。
一種替代方法是直接表示所涉及的策略,而僅隱式表示值函數(shù)。給定策略π\(zhòng)piπ的顯式表示形式,隱式表示的值函數(shù)是通過從每個狀態(tài)重復執(zhí)行π\(zhòng)piπ所獲得的值。如上所述,通過在π\(zhòng)piπ下繪制合適的軌跡(從每個可能的替代動作開始),仍然可以使用策略推出來生成π′\pi 'π′的樣本(給定π\(zhòng)piπ)。注意,在這種方法中,使用監(jiān)督分類學習器來學習π′\pi 'π′,而不是之前使用回歸學習器來近似V’。
這種替代方法的優(yōu)點是,與表示和學習準確的價值函數(shù)相比,通常更容易表示和學習適用于結構化域的策略。可以使用通用策略語言,這些語言利用數(shù)十年來的知識表示工作來對許多有用的策略進行緊湊,易學的描述(Martin&Geffner,2000; Khardon,1999; Yoon等,2002)。大量的實證研究表明(Fern等人,2003; Fern等人,2004),對于前三屆國際會議中使用的基準規(guī)劃問題衍生出的各種困難的,結構化的領域,幾乎不需要人工就可以學習策略。規(guī)劃比賽。使用這種近似策略迭代形式的學習系統(tǒng)可以學習與這些領域中最新的確定性計劃者競爭的策略。但是,與確定性計劃器不同,這些系統(tǒng)對于引入不確定性具有魯棒性,并且可以證明在相同問題的隨機變體中表現(xiàn)良好。另外,學習系統(tǒng)一次學習整個計劃領域的策略,然后可以通過簡單地執(zhí)行所學習的策略來解決該領域中的任何實例。相反,確定性計劃人員對每個問題實例使用新搜索,而在實例之間不傳遞任何知識。
關于RRL的近似策略迭代方法,還有許多未解決的研究問題。 首先,迄今為止探索的策略語言是相當有限的。 是否可以找到一種良好的,可學習的,通用的策略語言來避免遇到新領域時需要人工重新設計該語言,還有待確定。 特別是,僅開始探索結合內存而不是簡單地對當前狀態(tài)做出反應的策略語言。 而且,當前的策略語言缺乏將關于問題域的背景知識并入策略語言或策略學習者的一般能力。 最后,盡管有自然的方法,但這些技術尚未擴展到部分可觀察的環(huán)境或多agent環(huán)境中。
Symbolic Dynamic Programming
RRL的誘人方法是利用狀態(tài)轉換模型的符號表示形式來做“貝爾曼備份”的符號版本。這種方法的根源可以追溯到基于解釋的學習(EBL),其中,在成功解決問題的環(huán)節(jié)之后,將建立一個證明其成功背后原因的證據(jù)。然后,對證明進行一般化,以構造可以用相同方法求解的狀態(tài)的描述(Mitchell等,1986; DeJong&Mooney,1986)。在狀態(tài)空間問題和MDP中,證明對應于顯示動作序列可以實現(xiàn)目標,而EBL對應于在操作符序列上進行目標回歸。實際上,EBL是諸如Prodigy和SOAR(Minton等,1989; Laird等,1986)之類的系統(tǒng)中使用的泛化算法的核心,以從解決問題的特定示例中學習一般控制規(guī)則。 Dietterich和Flann通過將這些廣義狀態(tài)描述與從Bellman備份獲得的值相關聯(lián),將該思想與強化學習相結合(Dietterich&Flann,1997)。因此,人們可以學習對導致最多1步,2步,3步等獲勝的狀態(tài)的描述,并使用它們來選擇任何狀態(tài)下的最佳步法。
Boutilier將所得的基于解釋的強化學習(EBRL)推廣到了隨機域,其獎勵模型由結構化的貝葉斯網(wǎng)絡描述,因此使它們易于進行符號推理(Boutilier等人,2001)。這兩種方法的優(yōu)點是,不是從動機不明確的句法偏見中歸納概括一組示例,而是從符號域理論開始,證明該歸納是正確的。領域理論易于以緊湊的符號表示形式提供,這是決策理論規(guī)劃中的標準假設。如果這不是真的,那么首先學習對領域理論的簡要描述(Pasula等人,2004),并將其用于目標回歸中可能比直接學習價值函數(shù)要難得多。這是因為,即使值函數(shù)不起作用,領域模型也往往會采用緊湊的表示形式。例如,考慮象棋規(guī)則或PDDL中各種計劃域的描述。領域模型是緊湊的假設類似于歸納方法中要學習的策略是緊湊的假設。例如,此假設奠定了RRL近似策略迭代中使用的語法偏差的基礎。
不幸的是,有時稱為這種方法的符號動態(tài)編程(SDP)并不是萬能藥。共享給定值的狀態(tài)的描述變得越來越復雜和分離,因為這些狀態(tài)離目標越來越遠。每個連接描述所覆蓋的狀態(tài)數(shù)量急劇減少,從而導致大量的低覆蓋規(guī)則。實際上,在早期的EBL系統(tǒng)中已經(jīng)觀察到這種情況,導致了所謂的“效用問題”(Minton,1988; Dietterich&Flann,1997)。在某個時候,有必要放棄對值函數(shù)的精確表示,并對其進行緊湊地逼近,否則人們將花費更多的時間來匹配所有規(guī)則,而不是在原始狀態(tài)空間中尋找解決方案。進行這種近似通常涉及歸納學習,并導致這種方法本質上類似于關系回歸。
可以通過狀態(tài)空間聚合將某些問題抽象為等效的較小問題。以這種方式形成的具有較小等效問題的問題通常會很好地產(chǎn)生SDP。這些問題也可以通過使用模型最小化找到相關的狀態(tài)空間集合來直接解決(Givan et al。,2003),然后使用任何適用的技術(例如值迭代)解決由此產(chǎn)生的較小問題。
Directly Approximating the Value Function
直到最近,才有任何工作涉及改善我們的價值函數(shù)表示的方法,從而使所得的近似值可以利用域的關系結構,而無需對狀態(tài)空間特征進行大量的人工設計(Guestrin等,2003)。這項工作的新穎之處在于它能夠使用一種有效的方法(即線性編程)來直接逼近值函數(shù)。
不幸的是,這需要做出幾個假設,其中一些假設是非常嚴格的。最強的假設之一是對象之間的關系屬性不會隨時間變化。對如此強大的假設的需求突顯了直接逼近價值函數(shù)的難度。盡管在評估該作品的Freecraft有限子域中看起來并不那么嚴重,但請注意,在國際競賽的每個規(guī)劃基準中,對象之間的關系都會隨著時間而變化。
給定此有限的設置,假定全局值函數(shù)可將每個對象的加性分解為局部值函數(shù)。在對象屬于類(可以自動學習)的進一步假設下,還允許局部值函數(shù)近似值在類之間變化。結果方法必須為每個對象類找到一個局部值函數(shù)。在這里,術語“本地”表示給定對象貢獻的值只能取決于該對象的屬性(以及可能與該對象直接相關的那些對象)的屬性;在所報告的工作中,局部值是局部對象屬性的線性組合。然后,找到一個好的價值函數(shù)就可以減少尋找要用于每一類對象的線性組合的權重。
給定該值函數(shù)近似值,可以將找到合適權重的問題轉換為指數(shù)級大的線性程序,并使用約束采樣技術對其進行近似解決。 可以保證選擇權重接近最佳值的結果。 如果近似值中隱含的關于值函數(shù)的假設成立(如果可能確實很大),則可以保證該方法非常接近真值函數(shù)。
到目前為止,我們描述的所有RRL方法都利用關系表示將其價值功能或策略推廣到共享屬性和對象的相似域。 在每種情況下,其知識表示中固有的歸納偏差決定了歸納的有效性。 這一點最重要的是,戲劇化地表明,知識表示實際上是RRL中的關鍵問題,因為它決定了要進行的泛化。
Research Issues in RRL
對RRL的研究提供了許多希望,但也帶來了許多新的問題和挑戰(zhàn)。 以下是一些顯而易見的緊迫問題。
Theory of RRL: 與命題RL文獻不同,RRL理論還不那么成熟,只是在發(fā)展中(Boutilier等,2001; Kersting等,2004)。 雖然有限MDP的基本結果會延續(xù)到具有有限對象的關系域,但這些結果并沒有那么有用,因為它們依賴于命題化并且遭受與命題RL相同的不可泛化性的問題。 因此,有效函數(shù)逼近所基于的理論和實踐問題對于RRL而言更為關鍵。
Hierarchical RRL: 層次結構對于降低決策的復雜性以及允許跨不同任務的轉移非常重要。 分層RL是命題環(huán)境中的活躍研究主題。 關系設置允許更豐富的層次結構,其中包括“子任務”以及任務之間的“比特定對象更多”的關系。 這些更豐富的層次結構如何幫助學習? 如何自動學習這些層次結構?
Model Learning: 強化學習中的問題之一是如何表示和學習動作模型。除了瑣碎的領域之外,不可能在所有領域都明確地列出狀態(tài)。分解模型(例如Dynamic Bayes Networks)可以簡潔地表示動作。關系設置需要甚至更豐富的表示,例如,概率關系模型(PRM)或概率STRIPS樣式的運算符。我們如何學習這些更豐富的行動模型?我們如何在策略的推理和學習中使用它們? (Pasula et al,2004)報道了有關該主題的早期工作。
Policy Learning: 強化學習的核心辯論之一是策略學習還是價值功能學習更適合特定領域。當前的工作表明,在某些關系領域中,包括在塊世界中,可以通過策略學習獲得更好的泛化。在什么情況下是這種情況?有可能改善價值函數(shù)方法,使其與策略學習競爭嗎?或者將價值功能學習整合到可學習的策略語言中,然后在定義策略時可以參考價值,是否更合適?這里的一個相關問題是確定可以支持學習并在廣泛領域中代表有用策略的更好/理想的通用策略語言。
Satisficing: 命題強化學習與學習最佳策略有關。不幸的是,在許多關系域中,最優(yōu)策略是NP難或更差的,而存在有用的多項式時間次優(yōu)策略。如何在策略的最優(yōu)性和效率之間做出權衡?以上報告的工作依賴歸納偏見以一種不太了解的方式進行此折衷。
Prior Knowledge: 人類似乎在處理大型領域時會利用(開發(fā))領域知識。 缺乏處理先驗知識的手段可能是限制RL系統(tǒng)縮放的關鍵問題。 RL系統(tǒng)易于發(fā)現(xiàn)/傳達和有效利用哪些先驗知識? 關系表示法可以使此操作更容易并且以什么成本進行? 學習和推理如何有效地互補?
Reasoning after Solution: 迄今為止,最成功的RRL方法使用歸納方法來限制其保證解決方案質量的能力。 找到解決方案后,能否以任何易于處理的方式部署推理以驗證解決方案的質量和/或確定需要進一步計劃的問題區(qū)域?
A Summary of the Rest of the Proceedings
論文的其余部分描述了針對上述各種問題的正在進行的研究工作。
Ramon和Driessens探索將示例選擇技術添加到Driessens的基于內核的回歸算法中,以改善內存和計算要求,但更重要的是,增加計算的數(shù)值穩(wěn)定性。 Walker,Shavlik和Matwin描述了一種構建有用特征的方法,該方法通過隨機采樣大量相關特征并將其用于正則化內核回歸中以預測手工編碼策略的價值函數(shù)。他們在RoboCup域的Keep-Away子任務中獲得了可喜的結果。
Fern,Yoon和Givan的摘要總結了他們在近似策略迭代方面的工作及其在大型相關結構化決策理論計劃問題中的應用。 Itoh和Nakamura描述了一種方法,該方法用于學習是否在部分可觀察的域中以有限的內存在手動編碼的關系策略中使用每個規(guī)則。他們在迷宮般的領域中測試他們的算法,其中規(guī)劃有時是有用的,而問題是要學習何時有用。 Strens的論文描述了一種在部分可觀察的,二維,多agent追趕者逃避域中搜索參數(shù)化策略空間的方法。他表明,在追求者數(shù)量超過2個時,使用關系策略的性能要優(yōu)于相同策略或聯(lián)合策略。Croonenborghs,Ramon和Bruynooghe認為建立“影響模型”以從狀態(tài)特征開始預測回報的方法。這些建立在貝葉斯邏輯程序框架中的模型與Q值結合使用,可以基于多步預見選擇動作。
Gretton和Thiebaux描述了一種有趣的方法,該方法將符號動態(tài)編程與歸納回歸方法相結合,以在同時避開SDP的復雜推理問題的同時獲得兩者的好處。 Nason和Laird展示了如何通過添加獎勵和數(shù)字偏好將強化學習整合到SOAR體系結構中。他們討論了SOAR架構假設對其在關系域中有效學習的能力的影響。 Langley,Arai和Shapiro描述了一種稱為ICARUS的認知架構,該架構結合了分層技能和反應性執(zhí)行,并在有或沒有顯式動作模型的情況下進行對比學習。 Roncagliolo和Tadepalli描述了一種采用價值函數(shù)逼近的關系強化學習的分層方法。
莫拉萊斯提出了一種使用抽象形式的Q學習在抽象狀態(tài)空間中學習的方法。他還描述了一種從人類專家的痕跡中誘發(fā)相關行為的方法。威爾遜(Wilson)的摘要指出了對表達策略語言的需求,并傾向于采用簡單的策略。最后,van Otterlo和Kersting指出了關系強化學習的許多挑戰(zhàn)。這些包括發(fā)展融合理論,了解基于策略的方法與基于價值函數(shù)的方法的相對優(yōu)點,跨多個領域的概括以及利用先驗知識。
Conclusions
我們希望我們已經(jīng)說服了讀者,關系強化學習提供了各種挑戰(zhàn)和機遇。 我們激勵了RRL,并概述了許多研究問題和一些有希望的方向。 隨著人們對AI中的關系表示形式的興趣日益濃厚,并且對強化學習的問題和前景有了更深入的了解,似乎現(xiàn)在該是一個成熟的時機來研究包括表達表示,推理和動作執(zhí)行在內的綜合框架以嘗試解決實際感興趣的問題。 我們邀請讀者成為這次冒險的完整參與者。
參考資源
[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]
總結
以上是生活随笔為你收集整理的Relational Reinforcement Learning: An Overview的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Windows】文件批量重命名及后缀批
- 下一篇: 计算机函数汇总,计算机二级EXCEL必考