论文阅读:Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks
轉載自?凌空的槳https://blog.csdn.net/baidu_36669549/article/details/85986628
翻譯稿---鏈接
參考---Social GAN:利用GAN來幫助預測行人運動軌跡? ? ?或者? ? ?http://grayxu.cn/2018/10/06/Social-GAN/
源碼---sgan
可視化--Visual-of-Social-GAN
可視化博客---Social GAN——可視化
摘要
?
了解人體運動行為對于自動移動平臺(如自動駕駛汽車和社交機器人)來說至關重要,如果他們要駕馭以人為中心的環境。 這具有挑戰性,因為人體運動本質上是多模態的:考慮人在過去一段時間的路徑,可以在將來采取許多社交合理的方式選擇路徑。 我們通過組合序列預測和生成對抗網絡的工具來解決這個問題:循環序列到序列模型觀察運動歷史并預測未來行為,使用新的匯集機制來匯總人們的信息。 我們通過對抗經常性的鑒別者來對抗,從而預測社交可信的未來,并通過新的多樣性損失鼓勵多樣化的預測。 通過對幾個數據集的實驗,我們證明了我們的方法在準確性,多樣性,碰撞避免和計算復雜性方面優于先前的工作。
?
1.介紹
預測行人的運動行為對于自動駕駛汽車或社交機器人等自動駕駛平臺至關重要,這些平臺將與人類共享相同的生態系統。 人類可以有效地協商復雜的社交互動,這些機器也應該能夠做到這一點。 為此目的,一項具體而重要的任務如下:給定觀察到的行人運動軌跡(過去的坐標,例如3.2秒),預測所有可能的未來軌跡(圖1)。 由于擁擠場景中人體運動的固有屬性,預測人類的行為具有挑戰性:
某特定行人軌跡是受其他行人的位置而影響的,在早期工作中,每個行人都得走一次LSTM,計算開銷大,而且不能進行真正的全局考慮所有行人因素,capacity不夠大。
行人軌跡預測需要考慮人的社交屬性。舉個例子,有一對情侶拉著手往前走,理論上來說可以從下面鉆過去,但是這顯然是不符合人對于私密性的要求。 量化這個指標可能需要一些不夠優雅的繁瑣處理。
行人的軌跡預測顯然不止只有一種解,早期的工作大多基于優化歐氏距離之類的方法,只能給出一個“平均”好的路徑選擇。
圖1:兩個行人想要相互避開的情景圖示。 有許多可能的方法可以避免潛在的碰撞。 我們提出了一種給出相同觀察過去的方法,預測在擁擠的場景中多個社交可接受的輸出。
?
軌跡預測的開創性工作已經解決了上述一些挑戰。 基于手工制作的特征的傳統方法已經詳盡地解決了人際關系[2,17,41,46]。 最近,基于遞歸神經網絡(RNN)的數據驅動技術重新考慮了社交可接受性[1,28,12,4]。 最后,在給定靜態場景(例如,在交叉點采取哪些街道[28,24])的路線選擇的背景下研究了問題的多模態方面。 Robicquet等。 [38]已經表明,行人在擁擠的場景中具有多種導航風格,具有溫和或激進的導航風格。 因此,預測任務需要輸出不同的可能結果。
雖然現有方法在應對具體挑戰方面取得了很大進展,但它們受到兩個限制。 首先,他們在進行預測時為每個人周圍的局部鄰域建模。 因此,他們沒有能力以計算有效的方式模擬場景中所有人之間的交互。 其次,他們傾向于學習“平均行為”,因為常用的損失函數可以最小化標簽和預測輸出之間的歐氏距離。 相反,我們的目標是學習多種“良好行為”,即多種社交可接受的軌跡。
為了解決以往工作的局限性,我們建議利用最近的生成模型(GAN)進展。 最近開發了生成性對抗網絡(GAN)以克服近似難以處理的概率計算和行為推理的困難[14]。 雖然它們已被用于產生照片般逼真的信號,如圖像[34],但我們建議使用它們在給定觀察過去的情況下產生多個社交可接受的軌跡。 一個網絡(生成器)生成候選者,另一個(鑒別器)評估它們。 對抗性損失使我們的預測模型超越了L2損失的限制,并可能學習可以欺騙鑒別器的“良好行為”的分布。 在我們的工作中,這些行為在擁擠的場景中被稱為社交接受的運動軌跡。
我們提出的GAN是RNN編碼器 - 解碼器生成器和基于RNN的編碼器鑒別器,具有以下兩個新穎性:(i)我們引入了各種損失,鼓勵我們的GAN的生成網絡擴展其分布并覆蓋可能路徑的空間,同時與觀察到的輸入一致。 (ii)我們提出了一種新的匯集機制,它可以學習一個“全局”匯集向量,該向量對場景中所有參與者的微妙線索進行編碼。 我們將我們的模型稱為“社交GAN”。 通過對幾個公開的現實世界人群數據集的實驗,我們展示了最先進的準確性,速度并證明我們的模型能夠產生各種社交可接受的軌跡。
2.相關工作
預測人類行為的研究可以分為學習預測人 - 空間相互作用或人類人類交互。 前者學習場景特定的運動模式[3,9,18,21,24,33,49]。 后者模擬場景的動態內容,即行人如何相互作用。 我們工作的重點是后者:學習預測人類的人際互動。 我們討論了有關該主題的現有工作以及RNN中用于序列預測和生成模型的相關工作。
人與人之間的互動。人類行為已經從宏觀模型中的人群視角或微觀模型中的個體視角(我們工作的重點)進行了研究。微觀模型的一個例子是Helbing和Molnar的社交力量[17],其模擬行人行為,吸引力引導他們朝向目標,排斥力量鼓勵避免碰撞。在過去的幾十年中,這種方法經常被重新考慮[5,6,25,26,30,31,36,46]。還使用了經濟學中流行的工具,例如Antonini等人的Discrete Choice框架。 [2]Treuille等。[42]使用連續動力學,Wang等。 [44],Tay等。人。 [41]使用高斯過程。這些功能也被用于研究靜止組[35,47]。然而,所有這些方法都使用基于相對距離和特定規則的手工制作的能量勢。相比之下,在過去兩年中,基于RNN的數據驅動方法已被用于表現優于上述傳統方法。
用于序列預測的RNN。?遞歸神經網絡是一類豐富的動態模型,它擴展了前饋網絡,用于不同領域的序列生成,如語音識別[7,8,15],機器翻譯[8]和圖像字幕[20,43,45,39]。 然而,它們缺乏高水平和時空結構[29]。 已經進行了多次嘗試以使用多個網絡來捕獲復雜的相互作用[1,10,40]。 Alahi等人。 [1]使用社交池層來模擬附近的行人。 在本文的其余部分,我們表明使用多層感知器(MLP),然后使用最大池,計算效率更高,并且與[1]中的社交池方法一樣好或更好。 李等人。 [28]介紹了一種RNN編碼器 - 解碼器框架,該框架使用變分自動編碼器(VAE)進行軌跡預測。 然而,他們沒有在擁擠的場景中模擬人與人之間的互動。
生成建模。?像變分自動編碼器[23]這樣的生成模型是通過最大化訓練數據可能性的下限來訓練的。 Goodfellow等人。 [14]提出了一種替代方法,即生成對抗網絡(GAN),其中訓練過程是生成模型和判別模型之間的極小極大博弈(game); 這克服了近似難以處理的概率計算的困難。 生成模型已經在諸如超分辨率[27],圖像到圖像轉換[19]和圖像合成[16,34,48]之類的任務中顯示出有希望的結果,其具有給定輸入的多個可能輸出。 然而,它們在諸如自然語言處理之類的序列生成問題中的應用已經滯后,因為從這些生成的輸出中采樣以饋送到鑒別器是不可微分的操作。
3.方法
考慮到周圍的人,人類具有直觀的導航能力。 我們計劃我們的路徑,牢記我們的目標,同時考慮周圍人的運動,如他們的運動方向,速度等。但是,通常在這種情況下存在多種可能的選擇。 我們需要的模型不僅可以理解這些復雜的人類交互,還可以捕捉各種選項。 目前的方法集中在預測平均未來軌跡,該軌跡最小化距離真實標簽未來軌跡的L2距離,而我們想要預測多個“好”軌跡。 在本節中,我們首先介紹基于GAN的編碼器 - 解碼器架構來解決這個問題,然后我們描述我們的新型匯集層,它模擬了人與人之間的相互作用,最后我們介紹了我們的變種,它鼓勵網絡產生多種不同的未來軌跡。 相同的觀察序列。
圖2:系統概述。 我們的模型由三個關鍵組件組成:Generator(G),Pooling Module和Discriminator(D)。 G將軌跡Xi作為輸入,并將人i的歷史編碼為Ht i。 pooling module將所有Htobs i作為輸入,并為每個人輸出匯集的矢量Pi。 解碼器生成以Htobs i和Pi為條件的未來軌跡。 D將Treal或Tfake作為輸入,并將它們分類為社交可接受或不是(參見圖3中的PM)。
3.1 問題定義
我們的目標是共同推理和預測場景中涉及的所有代理人的未來軌跡。 我們假設我們接收場景中人物的所有軌跡作為輸入
并預測未來的軌跡同時所有人都是同時的。 人i的輸入軌跡從時間步長t = 1到t = tobs定義為
?,未來軌跡(標簽)可以類似地定義為?,時間從t=tobs+1,…,tpred。 我們將預測表示為。
?
3.2 生成對抗網絡(GAN)
生成性對抗網絡(GAN)由兩個相互對立的神經網絡組成[14]。 兩個經過對側訓練的模型是:捕獲數據分布的生成模型G,以及估計樣本來自訓練數據而不是G的概率的判別模型D.生成器G將潛在變量z作為輸入,并且 輸出樣本G(z)。 鑒別器D將樣本x作為輸入并輸出D(x),其表示它是真實的概率。 訓練程序類似于具有以下目標功能的雙人最小 - 最大博弈:(公式1)
?GAN可以通過為生成器和鑒別器提供額外的輸入c來使用條件模型,從而產生G(z,c)和D(x,c)
3.3社交意識GAN
如第1節所述,軌跡預測是一個多模態問題。 生成模型可以與時間序列數據一起使用來模擬可能的未來。 我們利用這種洞察力設計SGAN,使用GAN解決問題的多模態(參見圖2)。 我們的模型由三個關鍵部分組成:生成器(G),匯集模塊(PM)和鑒別器(D)。 G基于編碼器 - 解碼器框架,其中我們通過PM鏈接編碼器和解碼器的隱藏狀態。 G作為輸入Xi并輸出預測軌跡^ Yi。 D輸入包括輸入軌跡Xi和未來預測^ Yi(或Yi)的整個序列,并將它們分類為“真/假”。
生成器:這些嵌入在t時用作編碼器的lstm單元的輸入,引入以下循環:
其中φ()是具有ReLU非線性的嵌入函數,Wee是嵌入權重。 LSTM權重(Wencoder)在場景中的所有人之間共享。
每人使用一個LSTM無法捕捉人與人之間的互動。 編碼器學習人的狀態并存儲他們的運動歷史。 但是,正如Alahi等人所示。 [1]我們需要一個緊湊的表示,它結合了來自不同編碼器的信息,以有效地推理社交互動。 在我們的方法中,我們通過池模塊(PM)模擬人與人之間的交互。 在tobs之后,我們匯集了場景中所有人的隱藏狀態,以便為每個人獲得一個合并的張量Pi。 傳統上,GAN將輸入噪聲視為輸入并生成樣本。 我們的目標是制作與過去一致的未來情景。 為了實現這一點,我們通過初始化解碼器的隱藏狀態來調節輸出軌跡的生成:
?
?
其中,γ()是具有ReLU非線性的多層感知器(MLP),Wc是嵌入權重。 我們在軌跡預測的兩個重要方面偏離了先前的工作:
·先前的工作[1]使用隱藏狀態來預測雙變量高斯分布的參數。 然而,這在訓練過程中引入了難度,因為通過不可微分的采樣過程進行反向傳播。 我們通過直接預測坐標來避免這種情況。
·“社交”背景通常作為LSTM細胞的輸入[1,28]。 相反,我們僅將匯集的上下文作為輸入提供給解碼器。 與S-LSTM [1]相比,這也使我們能夠選擇在特定時間步驟進行匯集,并且速度提高16倍(參見表2)。
在如上所述初始化解碼器狀態之后,我們可以獲得如下預測:
?其中φ()是具有ReLU非線性的嵌入函數,其中Wed作為嵌入權重。 LSTM權重由Wdecoder表示,并且是MLP。
鑒別器:
鑒別器由一個單獨的編碼器組成。 具體來說,它需要輸入?或?并將它們歸類為真/假。 我們在編碼器的最后隱藏狀態上應用MLP以獲得分類分數。 理想情況下,鑒別者將學習微妙的社交交往規則,并將不被社交接受的軌跡分類為“假”。
損失函數:
除了對抗性損失之外,我們還在預測軌跡上應用L2損失,該軌跡測量生成的樣本與實際標簽的距離。
3.4池化模塊(Pooling Module)
為了共同推理多個人,我們需要一種在LSTM之間共享信息的機制。 但是,方法應該解決幾個挑戰:
·場景中的變量和(可能)大量人物。 我們需要一個緊湊的表示,它結合了所有人的信息。
·分散的人與人之間的互動。 本地信息并不總是足夠的。 遠方的行人可能會互相影響。 因此,網絡需要對全局配置進行建模。
圖3:紅人的匯集機制(紅色虛線箭頭)和社交池[1](紅色虛線格)之間的比較。 我們的方法計算紅色和所有其他人之間的相對位置; 這些位置與每個人的隱藏狀態連接,由MLP獨立處理,然后匯集元素以計算紅人的匯集向量P1。 社交池只考慮網格內的人,并且不能模擬所有人之間的交互。
?
社交池[1]通過提出基于網格的池化方案解決了第一個問題。 但是,這種手工制作的解決方案很慢,無法捕捉全局背景。 齊等人。 [37]表明,通過在輸入點集的變換元素上應用學習的對稱函數,可以實現上述屬性。 如圖2所示,這可以通過將輸入坐標傳遞給MLP,然后是對稱函數(我們使用Max-Pooling)來實現。 匯集的向量Pi需要總結一個人做出決定所需的所有信息。 因為,我們使用相對坐標來進行平移不變性,我們使用每個人相對于人i的相對位置來增加對池化模塊的輸入。
3.5鼓勵多樣化的樣本生成
由于有限的過去歷史,模型必須推理出多種可能的結果,因此軌跡預測具有挑戰性。 到目前為止所描述的方法產生了良好的預測,但是這些預測試圖在可以存在多個輸出的情況下產生“平均”預測。 此外,我們發現輸出對噪聲的變化不是非常敏感,并且產生了非常相似的預測。
我們提出了一種variety loss function,可以鼓勵網絡生成各種樣本。 對于每個場景,我們通過從N(0,1)中隨機采樣z并選擇L2意義上的“最佳”預測作為我們的預測來生成k個可能的輸出預測。
其中k是超參數。
通過僅考慮最佳軌跡,這種損失促使網絡對沖(hedge避免正面回答)其預計(bet)并覆蓋符合過去軌跡的輸出空間。 損失在結構上類似于最小N(MoN)損失[11],但據我們所知,這并未在GAN的背景下用于鼓勵生成樣本的多樣性。
?表1:跨數據集的所有方法的定量結果。 我們報告了以米為單位的tpred = 8和tpred = 12(8/12)的兩個誤差度量平均位移誤差(ADE)和最終位移誤差(FDE)。 我們的方法始終優于最先進的S-LSTM方法,尤其適用于長期預測(越低越好)。
3.6 實施細節
我們在解碼器和編碼器模型中使用LSTM作為RNN。 編碼器隱藏狀態的大小為16,解碼器為32.我們將輸入坐標嵌入為16維向量。 我們使用Adam [22]迭代地訓練批量大小為64的發生器和鑒別器200個時期,初始學習率為0.001。
4.實驗
在本節中,我們在兩個公開可用的數據集上評估我們的方法:ETH [36]和UCY [25]。 這些數據集由具有豐富的人類交互場景的真實世界人類軌跡組成。 我們將所有數據轉換為真實世界坐標并進行插值以獲得每0.4秒的值。 總共有5組數據(ETH - 2,UCY-3),有4個不同的場景,由擁擠的環境中的1536名行人組成,具有挑戰性的場景,如群體行為,人們相互交叉,避免碰撞以及群體形成和分散。
評估指標。?類似于先前的工作[1,28]我們使用兩個誤差指標:
1.平均位移誤差(ADE):真實標簽與我們對所有預測時間步長的預測之間的平均L2距離。
2.最終位移誤差(FDE):在預測周期Tpred結束時預測的最終目的地與真實最終目的地之間的距離。
基線:我們與以下基線進行比較:
1.線性:線性回歸量,通過最小化最小平方誤差來估計線性參數。
2. LSTM:沒有池化機制的簡單LSTM。
3. S-LSTM:Alahi等人提出的方法。[1]。 每個人都通過LSTM建模,隱藏狀態在每個時間步驟使用社交池層進行合并。
我們還使用不同的控制設置對我們的模型進行消融研究。 我們在本節中將我們的完整方法稱為SGAN-kVP-N,其中kV表示模型是否使用品種損失進行培訓(k = 1實質上意味著沒有品種損失),P表示我們提出的匯集模塊的使用。 在測試時,我們從模型中多次采樣并選擇L2意義上的最佳預測進行定量評估。 N指的是我們在測試時間內從模型中采樣的時間。
評估方法。?我們遵循與[1]類似的評估方法。 我們使用留一法,在4組訓練并測試剩下的一組。 我們觀察8個步驟(3.2秒)的軌跡并顯示8(3.2秒)和12(4.8秒)時間步長的預測結果。
4.1定量評估
我們將兩個指標ADE和FDE的方法與表1中的不同基線進行比較。正如預期的那樣,線性模型只能對直線路徑進行建模,并且在預測時間較長時(tpred = 12)尤其糟糕。 LSTM和S-LSTM都比線性基線表現更好,因為它們可以模擬更復雜的軌跡。 然而,在我們的實驗中,S-LSTM并不優于LSTM。 我們盡力重現論文的結果。 [1]在合成數據集上訓練模型,然后在真實數據集上進行微調。 我們不使用合成數據來訓練任何可能導致性能下降的模型。
?
圖4:品種損失的影響。 對于SGAN-1V-N,我們訓練單個模型,在訓練期間為每個序列繪制一個樣本,在測試期間繪制N個樣本。 對于SGAN-NV-N,我們在訓練和測試過程中使用N個樣本訓練多個模型以減少變種。 多樣性損失的訓練顯性提高了準確性。
?
SGAN-1V-1比LSTM表現更差,因為每個預測樣本可以是多個可能的未來軌跡中的任何一個。 模型生成的條件輸出表示可能與標簽預測不同的許多合理的未來預測之一。 當我們考慮多個樣本時,我們的模型優于確定問題的多模態性質的基線方法。 GAN面臨模式崩潰問題,其中生成器用于生成少量樣本,這些樣本由鑒別器分配高概率。 我們發現由SGAN-1V-1生成的樣本沒有捕獲所有可能的情況。 然而,SGAN-20V-20明顯優于所有其他模型,因為品種損失促使網絡生產多樣化的樣品。 盡管我們提出的池化層的完整模型表現稍差,但我們在下一節中展示了池化層有助于模型預測更“社交”合理的路徑。
?
速度。?速度對于在諸如自動駕駛車輛的現實世界環境中使用的方法是至關重要的,其中您需要關于行人行為的準確預測。 我們將我們的方法與兩個基線LSTM和S-LSTM進行比較。 簡單的LSTM執行速度最快但無法避免碰撞或進行準確的多模態預測。 我們的方法比S-LSTM快16倍(見表2)。 提高速度是因為我們不會在每個時間步進行匯集。 此外,與需要為每個行人計算占用網格的S-LSTM不同,我們的池化機制是簡單的MLP,然后是最大池。 在實際應用中,我們的模型可以在S-LSTM進行1次預測的同時快速生成20個樣本。
評估多樣性的影響。 人們可能想知道如果我們只是從我們的模型中抽取更多樣本而沒有品種損失會發生什么? 我們比較了SGAN-1V-N與SGAN-NV-N的性能。 作為提醒,SGAN-NV-N指的是在k = N的情況下訓練有各種損失并且在測試期間繪制N個樣本的模型。 如圖4所示,在所有數據集中,簡單地從模型(trained without variety loss)中抽取更多樣本,這不會帶來更好的準確性。 相反,我們看到顯著的性能提升,因為我們增加k,模型平均表現好了33% with k = 100。
?
表2:與S-LSTM的速度(以秒為單位)比較。 與S-LSTM相比,我們獲得了16倍的加速,允許我們在同一時間內繪制16個樣本,S-LSTM進行單次預測。 與S-LSTM不同,我們不會在每個時間步驟執行匯集,從而導致顯著的減速,而不會影響精度。 所有方法都基于Tesla P100 GPU進行基準測試
4.2定性評估
在多智能體(人)場景中,必須模擬一個人的行為如何影響其他人的行為。用于活動預測和人類軌跡預測的傳統方法關注于手工制作的能量勢能,其模擬吸引力和排斥力以模擬這些復雜的相互作用。我們使用純粹的數據驅動方法,通過新的匯集機制模擬人與人之間的相互作用。在其他人面前行走的人類計劃他們的路徑,考慮到他們的個人空間,感知碰撞的可能性,最終目的地和他們自己的過去動作。在本節中,我們首先評估匯集層的影響,然后分析我們的網絡在三種常見的社交互動場景中所做的預測。即使我們的模型對場景中的所有人進行聯合預測,我們也會為了簡單而顯示子集的預測。我們通過圖中顏色的第一個字母(例如,人B(黑色),人R(紅色)等)來引用場景中的每個人。同樣為了簡單起見,我們將SGAN-20VP-20稱為SGAN-P,將SGAN-20V-20稱為SGAN。
圖5:我們的模型沒有匯集(SGAN,頂部)和匯集(SGAN-P,底部)在四個避碰場景中的比較:兩個人見面(1),一個人遇到一個組(2),一個人在另一個人之后 (3),和兩個人在某個角度(4)會面。 對于每個例子,我們從模型中抽取300個樣本并可視化它們的密度和平均值。 由于匯集,SGAN-P預測社交可接受的軌跡,避免碰撞。
4.2.1 Pooling Vs No-Pooling
在量化指標上,兩種方法的表現相似,SGAN略微優于SGAN-P(見表1)。但是,從質量上我們發現匯集實施全球一致性和符合社交規范。我們比較了SGAN和SGAN-P在四種常見社交互動中的表現場景(見圖5)。我們想強調的是,即使這些場景是人工創建的,我們也使用了在真實世界數據上訓練得到的模型。此外,這些場景是為了評估模型而創建的,我們的設計中沒有任何東西使這些場景特別 容易或困難 ,我們繪制300個樣本并繪制軌跡的近似分布以及平均軌跡預測。
場景1和2通過改變方向描繪了我們模型的碰撞避免能力。在兩個人朝同一方向前進的情況下匯集使模型能夠預測一種社交接受的產生右路通行權的方式。然而,SGAN預測導致碰撞類似地,與SGAN不同,SGAN-P能夠模擬群體行為并預測避免,同時保留夫妻一起行走的概念(情景2)。人類也傾向于改變節奏以避免碰撞。場景3描繪了一個人G走在人B后面雖然更快。如果他們都繼續保持他們的步伐和方向,他們就會發生碰撞。我們的模型預測人G從右邊超車。 SGAN無法預測社交可接受的路徑。在場景4中,我們注意到該模型預測人B減慢并屈服于人G.
4.2.2 Pooling in Action
我們考慮三種真實場景,人們必須改變他們的路線以避免碰撞(見圖6)。
人們合并People Merging。 (第1行)在走廊或道路上,來自不同方向的人們通常會合并并走向共同的目的地。人們使用各種方式避免在繼續前往目的地時發生碰撞。例如,一個人可能會放慢速度,稍微改變他們的路線,或者根據周圍環境和其他周圍人的行為使用兩者的組合。我們的模型能夠預測人的速度和方向的變化,以有效地導航情況。例如,模型預測人B減速(第2列)或人B和R都改變方向以避免碰撞。最后的預測(第4欄)特別有趣,因為該模型預測了人R的突然轉向,但也預測人B在響應中顯著減慢;從而進行全球一致的預測。
集團避免Group Avoiding。 (第2行)人們在相反方向移動時相互避開是另一種常見情況。這可以表現為各種形式,例如避開一對夫婦,一對夫婦避開一對夫婦等。為了在這種情況下做出正確的預測,一個人需要提前計劃并超越它的直接鄰居。我們的模型能夠識別出人們在群體中移動并模擬群體行為。該模型預測任一組的方向變化作為避免碰撞的方式(第3,4欄)。與圖5相反,即使慣例可能是在這種特殊情況下讓位于右邊而導致碰撞。因此,我們的模型可以預測夫妻走向左邊的位置。
人跟隨Person Following。 (第3行)另一種常見情況是當一個人走在某人后面。人們可能想要保持步伐或者可能超過前面的人。我們想提請注意這種情況與現實生活方式之間的細微差別。實際上,一個人的決策能力受到他們視野的限制。相比之下,我們的模型可以在匯集時訪問場景中涉及的所有人的標簽位置。這表現在一些有趣的案例中(見第3欄)。該模型理解人R在人B之后并且移動得更快。因此,它預測人B通過改變他們的方向讓路,而人R保持他們的方向和速度。該模型還能夠預測超車(匹配基礎事實)。
圖6:我們模型中不同預測的例子。每一行都顯示了一組不同的觀測軌跡;列顯示了來自我們的模型的四個不同的例子,每個場景展示了不同類型的社會可接受行為。最好是最接近事實的樣本;在慢速和快速的樣本中,人們改變速度以避免碰撞;在DIR樣本中,人們改變方向以避免彼此。我們的模型以數據驅動的方式學習這些不同的回避策略,并聯合預測場景中所有人的全球一致和社會可接受的軌跡。在補充材料中也給出了一些失效案例。
4.3.潛在空間中的結構
在這個實驗中,我們試圖了解潛在空間z的景觀。 走在學習的流形上可以讓我們深入了解模型如何生成不同的樣本。 理想情況下,可以預期網絡在潛在空間中施加的一些結構。 我們發現潛在空間中的某些方向與方向和速度有關(圖7)。
?
圖7:潛在空間探索。 潛在流形中的某些方向與方向(左)和速度(右)相關聯。 觀察相同的過去但沿不同方向改變輸入z導致模型預測平均 向右/向左或快/慢的軌跡。
5. 結論
在這項工作中,我們解決了人類交互建模的問題,并共同預測場景中所有人的軌跡。 我們提出了一種新穎的基于GAN的編碼器解碼器框架,用于捕獲未來預測問題的多模態的軌跡預測。 我們還提出了一種新的匯集機制,使網絡能夠以純數據驅動的方式學習社交規范。 為了鼓勵預測樣本之間的多樣性,我們提出了一種簡單的品種損失,它與匯集層相結合,促使網絡產生全球連貫,符合社交要求的多樣化樣本。 我們展示了我們的方法在幾個復雜的現實生活場景中的功效,其中必須遵循社交規范。
總結
以上是生活随笔為你收集整理的论文阅读:Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 灰度发布整体解决方案
- 下一篇: TestHome 注册?如何绑定微信?如