深度学习数据特征提取:ICCV2019论文解析
深度學習數據特征提取:ICCV2019論文解析
Goal-Driven Sequential Data Abstraction
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Muhammad_Goal-Driven_Sequential_Data_Abstraction_ICCV_2019_paper.pdf
摘要
自動數據抽象是基準機器智能和支持摘要應用的重要功能。在前者中,一個問題是機器是否能夠“理解”輸入數據的含義,從而產生一個有意義但更緊湊的抽象。在后者中,通過總結輸入數據的本質,利用這種能力來節省空間或時間。本文研究了一個基于強化學習的通用框架,用于學習以目標驅動的方式提取序列數據。獨特地定義不同抽象目標的能力允許根據抽象的最終目的保留輸入數據的不同方面。我們的強化學習目標不需要人類定義的理想抽象示例。重要的是,我們的模型在不受原始輸入順序約束的情況下對輸入序列進行整體處理。我們的框架也與領域無關——我們展示了草圖、視頻和文本數據的應用,并在所有領域取得了有希望的結果。
Introduction
抽象通常是在特定應用程序的上下文中定義的[5,20,39,7,23,27]。在大多數情況下,它指的是消除冗余元素,并保存數據最顯著和最重要的方面。由于各種原因,它是一種重要的功能:壓縮[12]和節省查看數據的人力時間[29];還改進了下游數據分析任務,如信息檢索[2]和合成[14,27]。我們提出了一個新的目標驅動的順序數據抽象任務(見圖1)。順序是指具有時間順序的數據——我們考慮視頻、順序繪制的草圖和文本。
目標驅動是指根據特定的抽象目標或目標來保存輸入的某個方面。根據抽象目標的不同,相同的輸入可能導致不同的抽象輸出。例如,在產品評論文本中優先考慮保留情感和幫助可能導致不同的總結。重要的是不要混淆我們新的目標驅動的抽象設置和傳統的視頻/文本摘要[15,16,42,51,37,6,28,30,46]。目標是不同的:后者產生一個單一的緊湊但多樣的和有代表性的摘要,通常由人類注釋指導,而我們產生各種目標條件緊湊摘要。我們的問題設置也更易于在沒有當代視頻/文本摘要方法通常要求的基本事實標簽(即,手動goldstandard但主觀摘要)的情況下進行訓練。
為了解決這個新問題,需要新的方法。為此,我們提出了一個目標驅動的序列數據抽象模型,該模型具有以下關鍵特性:
(1)它對輸入序列進行整體處理,而不受原始輸入順序的約束。
(2)它是通過強化學習(RL)而不是監督學習來訓練的。這意味著不需要以目標抽象的形式對數據進行昂貴的注釋。
(3)通過RL獎勵函數引入不同的目標。除了消除注釋需求之外,這還可以根據抽象的目的保留輸入的不同方面。
(4)最后,基于RL的方法還允許通過改變抽象預算來組合任意長度的抽象輸出。
我們通過三個非常不同的順序數據域來演示我們方法的通用性:自由手繪草圖、視頻和文本。視頻和文本是過去廣泛研究的序列數據領域。雖然草圖看起來并沒有明顯的順序,但觸摸屏技術意味著所有重要的草圖數據集現在都記錄了矢量化的筆劃序列。例如,QuickDraw[17]是迄今為止最大的草圖數據集,它以(x,y)筆坐標和狀態p(接觸或提升)的形式提供矢量化的序列數據。對于素描和視頻,我們訓練了兩種基于類別和屬性識別模型的獎勵函數。這些驅動我們的抽象模型將輸入的草圖/視頻抽象成一個較短的序列,同時有選擇地保留與類別或屬性相關的信息。在文本方面,我們訓練了基于情感、產品類別和幫助性識別模型的三個產品評價獎勵函數。這些驅動我們的模型將輸入文檔總結成一個較短的段落,分別保留情感/類別/幫助信息。
我們工作的主要貢獻是:
(1)定義了一個新的目標驅動的抽象問題;
(2)一個由RL訓練的序列數據抽象模型,該模型不受原始輸入順序的約束,能夠對輸入進行整體處理;
(3)展示了該模型對包括sketch在內的不同序列數據域的靈活性,視頻和文本。
- Related work
現有的視頻/文本摘要模型要么是有監督的,要么是無監督的。視頻[9,31,40,41,43,50,52,54,55]和文本[10,26,25,3]領域中的無監督摘要模型旨在識別保留輸入的全局內容的關鍵單元(視頻片段/句子)的一小部分,例如,使用多樣性和代表性等標準。相比之下,監督視頻[13,15,16,42,49,51]和文本[37,6,28,30,46]摘要方法通過使用地面真實摘要作為訓練目標來解決同樣的問題。這兩種類型的模型都不是由特定的目標驅動的,而是根據人類注釋的基本事實摘要來評估的——人類如何總結給定的視頻/文本是主觀的,而且常常是模棱兩可的。因此,這兩個模型都沒有解決我們新的目標驅動抽象設置。
最近的工作[53]使用類別級視頻標簽在弱監督RL設置中訓練視頻摘要模型。其目的是產生摘要,增加類別層次的可識別性標準,以及通常的多樣性和代表性標準。核心機制是對視頻片段按順序進行處理,并按照上述標準對每個片段做出二進制決策(保留或移除)。在這項工作中,我們引入了一種目標驅動的方法來顯式地保留任何可量化的屬性,無論是類別信息(如[53]中部分完成的)、屬性,還是潛在的其他數量,如興趣度[11]。我們證明了我們的模型優于[53],這得益于對序列輸入的整體建模,而不受其原始順序的限制(見第2節)。4.2條)。與視頻和文本相比,素描抽象的研究較少。在[4]中首次研究了這個問題,其中使用數據驅動的方法來研究專業繪制的面部肖像中的抽象。通過限制藝術家繪制參考照片的時間(從4.5分鐘到5秒),收集不同抽象級別的草圖。
在最近的工作[27]中,自動抽象首次明確地研究了徒手業余草圖。抽象過程被定義為草圖的可識別性和簡潔性/緊湊性之間的權衡。抽象模型也基于RL,按順序處理筆劃片段,并對每個片段做出二進制決策(保留或移除),但在其他情況下,輸出筆劃的順序與繪制筆劃的順序相同。在這項工作中,我們還優化了可識別性和緊湊性(如果目標是可識別性)之間的權衡。然而,最關鍵的是,我們的方法從整體而不是按原始順序處理輸入中獲益,并學習了一種最優的筆劃排序策略。
我們表明,我們的方法明顯優于[27](Sec. 4.1)。此外,我們還演示了在草圖、視頻和文本等不同領域的應用,并獨特地探索了使用多個目標函數獲取不同抽象的能力。素描識別早期的素描識別方法是為了處理CAD或藝術制圖中的專業素描而開發的[18,22,36]。在[8]中,隨著第一個大規模業余草圖數據集的發布,自由手繪草圖識別的更具挑戰性的任務首次被解決。從那時起,這項任務已經被很好地研究了,使用了經典的視覺[34,21]和深度學習方法[48]。最近成功的深度學習方法已經跨越了非序列CNN[48,47]和序列RNN[19,33]識別器。我們使用CNN和基于RNN的多類分類器為我們基于RL的草圖抽象框架提供獎勵。
- Methodology
我們的目標是輸入一個數據序列并輸出一個較短的序列,該序列根據目標函數保留特定類型的信息。為此,提出了目標驅動序列抽象(GDSA)模型。GDSA首先將輸入序列數據分解為一組原子單元(AUs),形成一個候選選擇池,從而對輸入序列數據進行整體處理。GDSA由RL訓練,通過從池中選擇一個AUs序列來產生抽象。輸出序列應短于輸入序列(由預算控制),同時保留其信息內容(由RL獎勵/目標函數控制)。
3.1. Goal-driven sequence abstraction (GDSA)
序列數據抽象任務被形式化為馬爾可夫決策過程。在每個步驟中,我們的GDSA代理將一個原子單位(AU)從候選AUs池移動到所選AUs的列表中,當所選AUs的數量大于固定預算時,它停止。通過RL[38]使用獎勵方案對代理進行訓練,該獎勵方案鼓勵代理在給定有限長度預算的情況下,在保持序列中與目標相關的信息方面優于原始輸入順序的效率。具體來說,我們有兩種數據結構:候選AU池和所選AU列表。選定的AUs列表開始為空,候選AUs池包含完整的輸入。然后,代理從候選池中一次選擇一個AU,并將其附加到當前選定的AU列表中。GDSA代理的示意圖如圖2所示。核心思想是在所有先前選擇的AUs和輸入序列所屬的類別的上下文中評估每個候選AU的選擇。
我們通過分別學習候選AUs、選擇AUs和輸入序列類別標簽的嵌入來實現這一點。基于這些嵌入,GDSA代理將迭代地選擇下一個最佳AU以輸出給定的結果。候選AU嵌入在每個迭代中,GDSA將候選池中的每個AU視為下一個輸出的候選。為
此,首先每個AU是:
(1)編碼為固定長度向量。請注意,每個AU本身可能包含順序的子結構(由片段形成的草圖筆劃、由幀形成的視頻片段或由單詞形成的句子),因此我們使用領域特定的預訓練RNN將嵌入每個AU。提取與AU的最后一個子條目相對應的隱藏RNN小區狀態,并將AU表示為固定長度向量。
(2)根據原始輸入序列w.r.t中的相對位置,將時間戳從1分配到10,即AUs的總數。引入這一點是為了在訓練期間,我們的模型可以利用來自輸入序列順序的信息。然后將這一個熱時間戳向量與上面的固定長度RNN編碼向量連接,并將這些向量饋入完全連接(FC)層以獲得候選AU嵌入。
選擇AU嵌入
為了表示到目前為止的輸出序列,所選AU列表的所有AUs被順序地饋送到RNN。每個AU對應于RNN中的一個時間步。最后一個時間步的輸出被輸入到FC層,以獲得所選擇的AU列表嵌入。在第一個時間步驟中,列表為空,由零向量表示。
類別嵌入
一個域中通常有多個相關的抽象任務,例如草圖/文本抽象中的對象/文檔類別。我們可以為每個類別訓練一個獨立的GDSA模型,或者聚合所有類別的訓練數據。它們分別受到較少的培訓數據和類別/領域細節的混合影響。作為折衷方案,我們嵌入了一個類別識別器,以允許模型利用一些信息共享,同時還提供有關類別差異的指導[44]。在每次迭代中,我們的代理都會執行一個給定類別的操作(從候選池中選擇一個AU),并選擇到目前為止的AUs。為此,它依次考慮每個候選AU并將其與其他兩個嵌入連接起來,然后將結果饋送到FC層以獲得完整的狀態操作嵌入。然后將其輸入一個具有1個神經元(即標量輸出)的FC層以產生最終logit。一旦對所有候選AUs進行處理,它們相應的logit值被連接起來,并通過softmax形成多項式分布。在訓練過程中,我們抽樣這個多項式,并且在測試過程中總是選擇最大的logit。然后從候選池中刪除所選的AU,并將其附加到所選AU的列表中。重復此過程,直到耗盡預算。
域特定詳細信息
我們將我們的框架應用于草圖、視頻和文本數據。每個草圖都由一系列對應于筆劃的AUs組成。對于視頻,每個輸入是一個視頻剪輯,剪輯中的片段是AUs。對于文本,每個輸入都是一個包含產品評論的文檔,句子是AUs。另一個特定于域的屬性是如何將代理選擇的AUs表示為抽象的最終輸出。在視頻和文本的情況下,所選擇的AUs保持與原始輸入順序相同的順序,以保持輸出序列的一致性。而對于草圖,我們保持AUs的選擇順序,因為該模型可能學習到比自然人輸入更好的排序策略。
3.2. Goal-driven reward function
為了演示通過不同的目標驅動抽象,我們探索了對草圖的其他信息的有價值的保存。具體來說,我們訓練一個草圖屬性檢測器來定義屬性保存獎勵。對于視頻,要保留的主要目標信息是視頻類別的可識別性。為了指導培訓,我們采用了一個多類分類法,它被插入到獎勵函數中,在每個時間步計算at、ht和gt值。我們還考慮了另一個抽象目標,即通過使用屬性檢測器來定義獎勵,從而在視頻中保留屬性。對于文本,主要目標是產品評論中的情感保留,獎勵是通過評論摘要被二元情感分類正確分類的概率給出的。作為不同的抽象目標,我們還通過為這些目標培訓不同的分類來探索產品類別和有用性信息的保存。
3.3. Training procedure
在傳統的強化學習(RL)框架中,觀察空間和行動空間維度都是固定的。在我們的框架中,由于候選AUs的數量在每一步都會減少,因此動作空間會隨著時間的推移而縮小。相比之下,選擇的AUs的數量隨著時間的推移而增加,但是由于使用RNN嵌入,它們的嵌入維度是固定的。我們的RL框架通過在每個時間步重建動作空間來處理這些動力學。這可以通過對可用操作(即候選AU池)進行卷積來有效地實現。
我們把我們的方法應用到一個綜合例子中作說明。我們介紹了一種簡單的3×3圖像格式,它由9個二進制樣本按光柵掃描順序生成。每個AU是一個像素,有29個獨特的圖像類別。我們選擇3個類,對應于圖3中的第一列,分別表示為“×”、“+”和“o”。為了引入類內變異性,觀測樣本受到高斯噪聲的擾動。圖3中的關鍵觀察是,為了識別類別,并非所有AUs(像素)都是必要的。例如,在只有兩個AUs的序列中,如果一個是角,另一個是中心,則它必須是“×”類別。這為AU序列的簡化和重新排序創造了空間,從而產生一個較短但保留信息的序列。訓練RL代理來解決這個問題,我們希望它選擇幾個最大化可識別性的AUs。我們將AU選擇預算限制為2(即兩個像素輸出圖像)。如圖4所示,代理生成的輸出序列有90%的概率被線性分類器正確分類。這比其隨機初始化狀態(隨機選擇兩個筆劃的策略)要好得多,其性能約為50%~70%。
- Experiments
我們的模型在Tensor flow[1]中實現。GDSA框架中用于處理所選AU序列的RNN由128個隱藏單元組成的單層門控遞歸單元(GRU)實現。將尺寸為1×128的GRU輸出饋送到完全連接層,得到尺寸為1×18的選定筆劃嵌入。候選的AU嵌入是通過將AU表示(固定長度的特征向量與時間戳連接)饋送到完全連接的層中獲得的,其維數為1×9。類嵌入的維數為1×3。通過將前三個嵌入連接起來并輸入到完全連接的層中得到的完全嵌入大小為1×15。代碼和經過訓練的模型都將公開。如前所述,我們為抽象學習提出了一個新的問題設置和相關的解決方案。當代的摘要學習需要有注釋的目標摘要[4,6,29,35,49],我們需要的是目標函數。目標函數本身是從元數據中學習的,這些元數據通常已經可用,或者比昂貴的黃金標準摘要(例如,文本的情感標簽)更容易獲得。由于目標(任務具體摘要與一般摘要)和數據要求(薄弱。我們的方法完全不同,我們無法與傳統的摘要方法相比。
當使用25%和50%的每個類別的平均筆劃數的預算B時,我們通過草圖識別精度來評估GDSA模型的性能。這個評估是在45000個草圖的測試集上進行的。草圖識別是通過使用兩種不同的分類(RNN[27]和Sketch-a-Net[47])來實現的。
我們將我們的抽象模型與:
(1)原始人類繪圖順序中的前B個筆劃進行了比較。這是一個很強的基線,因為QuickDraw中的數據是通過挑戰玩家在有限的時間內(抽象地)畫出物體來獲得-因此,最初的幾筆被認為對人類的識別很重要。
(2)隨機選擇B筆劃。
(3) DSA[27],最先進的深度素描抽象模型。請注意,為了進行公平的比較,我們修改了[27]以在筆劃級別執行抽象,因為最初的論文涉及筆劃段(五個連續的(x,y,p)元素)。
(4) DQSN[53],一個最初為視頻提出的抽象模型。我們通過插入筆劃AU表示而不是視頻幀特征來調整此模型以適應我們的設置。
我們還報告了不帶抽象的完整輸入序列的性能,它表示上限。表1的結果表明,我們的GDSA代理優于所有其他方法。最明顯的是,在更高的B=25%預算下,我們的GDSA模型能夠學習到一個有效的選擇政策。特別地,DSA和DQSN都受到原始輸入AU階的限制,并且具有固定的2態作用空間,從而導致次優選擇。
我們方法的一個關鍵特性是能夠選擇在抽象過程中應該保留的不同輸入屬性。在這個實驗中,我們通過對比屬性保持和類別保持來證明這種能力。我們通過從QuickDraw中選擇9種動物類別(貓、老鼠、貓頭鷹、熊貓、豬、兔子、松鼠、老虎和斑馬)并定義5種動物屬性:胡須(貓、老鼠,兔子,老虎),尾巴(貓,老鼠,豬,兔子,松鼠,老虎,斑馬),條紋(老虎,斑馬),長腿(老虎,斑馬),大眼睛(貓頭鷹,熊貓)。我們訓練兩個單獨的Sketch-a-Net2.0模型來識別上述類別和屬性。然后將它們插入獎勵生成器以培訓GDSA,預算B=25%。類別與屬性保留結果的定性比較如圖5所示。我們可以清楚地看到,更改目標會直接影響抽象策略。例如,保持顯著的貓類線索(耳朵)與請求的屬性(胡須)。
GDSA的性能是通過類別識別的準確性來評估的,在每個類別中,有三個預算值,分別是每個類別的平均段數的25%和50%。在[53]之后,該評估由做5倍交叉驗證。類別識別是使用上述分類進行的。
我們比較了:(1)原順序的前B段。(2)
隨機B段。(3) DSA[27],通過用視頻片段AU替換筆劃AU向量來適應視頻。(4)
最先進的DQSN[53],它適合接受基于類別識別的公平比較獎勵的培訓。我們還計算了無抽象輸入視頻的上界。表2中的結果表明,我們的GDSA代理在顯著的利潤率方面優于所有競爭對手。
為了展示我們模型的目標驅動抽象能力,我們首先定義了5個類別級別的屬性:動物(狗狗表演、梳理動物、養蜂)、人類(跑酷、飛毛腿聚集、游行)、車輛(更換車輛輪胎、打開車輛鎖)、食物(制作三明治)、自行車(嘗試自行車技巧)}。使用與分類相同的分類架構,我們訓練屬性分類。然后插入獎勵功能以指導培訓,B=25%。一些定性結果如圖6所示。我們可以清楚地看到,抽象輸出隨目標函數的變化而變化。例如,保留與游行相關的片段(類別)與描述人類的片段(屬性)。
接下來,我們將通過培訓而不是保留(1)產品類別(多類)和(2)有用性(二進制)數據來演示GDSA模型的目標驅動摘要功能。采用漢化分類法,B=25%。一些定性結果如圖7所示。我們可以觀察到,根據抽象目標的不同,輸出會有所不同,以保留與目標相關的信息。
我們使用Amazon Review數據集來訓練GDSA文本模型[24]。我們的目標是保持積極/消極的評論情緒(1-2星為消極,4-5星為積極)。我們選擇了9個類別:{服裝、書籍、dvd、電子產品、廚房和家庭用品、音樂、體育和戶外活動、玩具和游戲以及視頻},這9個類別的基礎是可以獲得相同數量的正面和負面評價。每個類別的平均句子數分別為{3.5、8.2、8.9、5.6、4.8、6.8、5.4、4.9、7.7}。我們使用每類1400條評論進行培訓,600條用于測試。實施細節我們用K=10000集、獎勵比例因子b=100和學習率η=0.0001來培訓我們的代理。我們將預算B設置為每類句子平均數的25%和50%。
此外,我們有一個句子的預算,以確定在每次審查中最相關的句子。我們使用兩種不同的情緒分類法,都使用手套嵌入[32]將每個詞表示為固定維度向量:(1)一個最先進的文本分類層次注意網絡(HAN)[45],在9個評論類別上訓練用于二元情緒分析。(2)
由64個隱藏單元組成的單層LSTM構建的RNN。它將單詞嵌入列表作為輸入,并將其最后一個時間步長輸出反饋給具有softmax激活的完全連接層,以預測情緒。這些分類器經過訓練后,還用于提取固定維度(256/64)特征,該特征與時間戳向量相連,以獲得候選句子池中每個句子的最終AU表示(D=266/74),用于相應的GDSA模型。 我們通過情感識別的準確性來評估我們的GDSA模型的性能,每個類別的平均句子數有3個預算,分別為25%和50%。這項評估是在5400個評審的測試集上進行的。情緒識別使用上述兩個分類(RNN和HAN[45])。
我們比較了:(1)按原順序排列的前B句。(2)
隨機B句。(3) DSA[27]和(4)DQSN[53]都通過插入句子AU表示而不是筆劃和幀AU表示來適應文本。上限表示沒有抽象的完整評審的性能。表3的結果表明,我們的GDSA代理再次優于所有競爭對手。
- Conclusion
我們為目標驅動的順序數據抽象引入了一個新的問題設置和有效的框架。它是由一個目標函數驅動的,而不需要昂貴的注釋性基本事實標簽,而且還唯一地允許選擇要保留的信息,而不是生成單一的通用摘要。我們的GDSA模型在這個新的抽象任務中提供了比幾個替代方案更好的性能。我們減少了數據需求,并且新的目標條件抽象能力使不同的實際摘要應用程序能夠與當今常見的應用程序相比。
總結
以上是生活随笔為你收集整理的深度学习数据特征提取:ICCV2019论文解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习常见问题解析
- 下一篇: 4D雷达成像技术