AMiner会议论文推荐第三十五期
AMiner平臺(tái)由清華大學(xué)計(jì)算機(jī)系研發(fā),擁有我國(guó)完全自主知識(shí)產(chǎn)權(quán)。平臺(tái)包含了超過(guò)2.3億學(xué)術(shù)論文/專利和1.36億學(xué)者的科技圖譜,提供學(xué)者評(píng)價(jià)、專家發(fā)現(xiàn)、智能指派、學(xué)術(shù)地圖等科技情報(bào)專業(yè)化服務(wù)。系統(tǒng)2006年上線,吸引了全球220個(gè)國(guó)家/地區(qū)1000多萬(wàn)獨(dú)立IP訪問(wèn),數(shù)據(jù)下載量230萬(wàn)次,年度訪問(wèn)量超過(guò)1100萬(wàn),成為學(xué)術(shù)搜索和社會(huì)網(wǎng)絡(luò)挖掘研究的重要數(shù)據(jù)和實(shí)驗(yàn)平臺(tái)。
AAAI 2021 論文推薦
Semantic MapNet: Building Allocentric SemanticMaps and Representations from Egocentric Views
論文鏈接:https://www.aminer.cn/pub/5f7c348e91e0117ac2a78860/?conf=aaai2021
推薦理由:該工作研究語(yǔ)義映射任務(wù)–具體來(lái)說(shuō),該任務(wù)給一個(gè)具身代理(機(jī)器人或以自我為中心的人工智能助手)新的環(huán)境,要求其從一個(gè)位置已知的RGB-D相機(jī)的自我中心觀察中(通過(guò)定位傳感器)建立一個(gè)分配中心的語(yǔ)義地圖(“什么在哪里?”)。為了實(shí)現(xiàn)這一目標(biāo),作者提出了SemanticMapNet(SMNet),該模型由以下部分組成。(1)一個(gè)以自我中心的視覺(jué)編碼器,它對(duì)每個(gè)以自我為中心的RGB-D幀進(jìn)行編碼;(2)一個(gè)特征投影器,它將以自我為中心的特征投射到平面圖上的適當(dāng)位置;(3)一個(gè)空間記憶張量,其大小為平面圖長(zhǎng)x寬x特征半徑,可以學(xué)習(xí)積累投射的自我中心特征;(4)一個(gè)地圖解碼器,它使用記憶張量來(lái)生成語(yǔ)義自上而下的地圖。SMNet結(jié)合了投影相機(jī)幾何學(xué)和神經(jīng)表征學(xué)習(xí)的優(yōu)勢(shì),在Matterport3D數(shù)據(jù)集的語(yǔ)義映射任務(wù)上的部分表現(xiàn)顯著優(yōu)于其他基線。此外,作者還展示了如何將SMNet建立的神經(jīng)表象記憶和空間語(yǔ)義分配中心表征用于同一空間的后續(xù)任務(wù)。
DIRV: Dense Interaction Region Voting for End-to-End Human-Object Interaction Detection
論文鏈接:https://www.aminer.cn/pub/5f7aef0c91e011983cc81ee5/?conf=aaai2021
推薦理由:近年來(lái),人機(jī)交互( human-object interaction,HOI)檢測(cè)取得了令人矚目的進(jìn)展。然而,傳統(tǒng)的兩階段方法通常推理速度較慢,現(xiàn)有的單階段方法主要集中在交互的聯(lián)合區(qū)域,這對(duì)HOI檢測(cè)引入了不必要的視覺(jué)信息作為干擾。為了解決上述問(wèn)題,作者在本文中基于交互區(qū)域這一概念提出了一種新型的單階段HOI檢測(cè)方法DIRV。與以往的方法不同的是,該方法集中在對(duì)每對(duì)人-物不同尺度的密集采樣交互區(qū)域,從而捕捉到交互最本質(zhì)的細(xì)微視覺(jué)特征。此外,為了彌補(bǔ)單一交互區(qū)域的檢測(cè)缺陷,作者引入了一種新型的投票策略,充分利用這些重疊的交互區(qū)域來(lái)代替?zhèn)鹘y(tǒng)的非最大抑制(Non-Maximal Suppression,NMS)。
Vid-ODE: Continuous-Time Video Generation with Neural Ordinary Differential Equation
論文鏈接:https://www.aminer.cn/pub/5f8d5f6d91e0116f3d44db04/?conf=aaai2021
推薦理由:視頻生成模型通常是在固定幀率的假設(shè)下運(yùn)行的,這導(dǎo)致在處理靈活的幀率(例如,增加視頻中更多動(dòng)態(tài)部分的幀率以及處理丟失的視頻幀)時(shí),性能不理想。為了解決現(xiàn)有視頻生成模型在處理任意時(shí)間步長(zhǎng)方面的局限性,作者提出了將神經(jīng)ODE(Vid-ODE)與像素級(jí)視頻處理技術(shù)相結(jié)合的連續(xù)時(shí)間視頻生成方法。該方法以最近提出的神經(jīng)ODE的卷積版本ODE-ConvGRU作為編碼器,使模型Vid-ODE可以學(xué)習(xí)靈活幀率的輸入視頻的時(shí)空動(dòng)態(tài)。解碼器將學(xué)習(xí)到的動(dòng)態(tài)函數(shù)集成到任意給定時(shí)間步長(zhǎng)的視頻幀中進(jìn)行合成,其中像素級(jí)合成技術(shù)用于保持單個(gè)幀的清晰度。作者通過(guò)在四個(gè)真實(shí)世界的視頻數(shù)據(jù)集上的大量實(shí)驗(yàn),驗(yàn)證了Vid-ODE在各種視頻生成設(shè)置下的性能優(yōu)于最先進(jìn)的方法。
ICLR 2021 論文推薦
Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity
論文鏈接: https://www.aminer.cn/pub/600831499e795ed227f530a5/?conf=iclr2021
推薦理由:雖然深度神經(jīng)網(wǎng)絡(luò)在對(duì)訓(xùn)練分布的擬合上表現(xiàn)出了良好性能,但提高網(wǎng)絡(luò)對(duì)測(cè)試分布的泛化性能和對(duì)輸入擾動(dòng)敏感性的魯棒性仍是挑戰(zhàn)。雖然已有研究提出了一些基于混疊的增強(qiáng)策略來(lái)解決上述問(wèn)題,但如何最好地利用每個(gè)輸入數(shù)據(jù)內(nèi)的監(jiān)理信號(hào)進(jìn)行混疊仍不清楚。該工作提出了一種新的批量混疊觀點(diǎn),并制定了優(yōu)化構(gòu)建一批混疊數(shù)據(jù)的方法,最大限度地提高每個(gè)單獨(dú)混疊數(shù)據(jù)的數(shù)據(jù)顯著性度量,并鼓勵(lì)構(gòu)建的混疊數(shù)據(jù)之間的超模態(tài)多樣性。為此,作者提出了一個(gè)新型的離散優(yōu)化問(wèn)題,即最小化子模態(tài)函數(shù)之間的差異。同時(shí),該工作還描述了一種基于模塊近似的迭代子模態(tài)最小化算法,用于每一個(gè)minibatch的高效混搭計(jì)算,適合基于minibatch的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
Evolving Reinforcement Learning Algorithms
論文鏈接: https://www.aminer.cn/pub/600833a89e795ed227f531aa/?conf=iclr2021
推薦理由:該工作提出了一種元學(xué)習(xí)強(qiáng)化學(xué)習(xí)方法,通過(guò)在計(jì)算圖的空間上搜索,計(jì)算出基于價(jià)值的無(wú)模型RL代理優(yōu)化的損失函數(shù)。上述方法學(xué)習(xí)到的算法是不分領(lǐng)域的,能夠泛化到訓(xùn)練過(guò)程中未見(jiàn)的新環(huán)境。同時(shí),該方法既可以從頭開(kāi)始學(xué)習(xí),也可以從已知的現(xiàn)有算法(如DQN)上進(jìn)行自舉,從而實(shí)現(xiàn)可解釋的修改。通過(guò)在經(jīng)典控制和網(wǎng)格世界任務(wù)上進(jìn)行從頭學(xué)習(xí),該工作重新發(fā)現(xiàn)了時(shí)差(temporal-difference,TD)算法。在DQN的引導(dǎo)下,作者強(qiáng)調(diào)了兩個(gè)學(xué)習(xí)算法,它們?cè)诮?jīng)典控制任務(wù)、網(wǎng)格世界類型任務(wù)和Atari游戲上擁有良好的泛化性能。
Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient Estimator
論文鏈接: https://www.aminer.cn/pub/5f85722e91e011ff328095d7/?conf=iclr2021
推薦理由:最簡(jiǎn)單的無(wú)偏估計(jì)器往往具有高方差,因此離散潛變量模型中的梯度估計(jì)極具挑戰(zhàn)性。為解決上述問(wèn)題,現(xiàn)代估計(jì)器或引入偏差,或依賴多個(gè)函數(shù)評(píng)估,或使用依賴于輸入的基線。因此,急需一種僅用最小調(diào)整、計(jì)算成本低、均方差小的估計(jì)器。在本文中,作者展示了流行的Gumbel-Softmax估計(jì)器的直通變體的方差可以通過(guò)Rao-Blackwellization減少,而不增加函數(shù)評(píng)估的次數(shù)。同時(shí),作者通過(guò)實(shí)證證明,該方法能夠減小兩個(gè)無(wú)監(jiān)督潛變量模型的方差,提高收斂速度。
Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
論文鏈接: https://www.aminer.cn/pub/5f8581a591e011ff3280972d/?conf=iclr2021
推薦理由:作者研究了一種深度強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)架構(gòu),它能夠解釋為什么一個(gè)學(xué)習(xí)代理喜歡一個(gè)動(dòng)作而非另一個(gè)動(dòng)作。其關(guān)鍵思想是學(xué)習(xí)人類可理解的預(yù)期未來(lái)屬性直接表示的行動(dòng)值。上述方法通過(guò)嵌入式自我預(yù)測(cè)(embedded self-prediction,ESP)模型來(lái)實(shí)現(xiàn),該模型能夠根據(jù)人類提供的特征來(lái)學(xué)習(xí)其屬性。同時(shí),行動(dòng)偏好可以通過(guò)對(duì)比每個(gè)行動(dòng)所預(yù)測(cè)的未來(lái)屬性來(lái)闡述。為了解決大量特征存在的情況,作者開(kāi)發(fā)了一種新的方法,用于計(jì)算最小充分的ESP解釋。在三個(gè)領(lǐng)域的案例研究表明該ESP模型可以有效地學(xué)習(xí)并提供有洞察力的解釋。
Complex Query Answering with Neural Link Predictors
論文鏈接: https://www.aminer.cn/pub/5fa9175f91e011e83f7407f4/?conf=iclr2021
推薦理由:神經(jīng)鏈接預(yù)測(cè)器對(duì)于識(shí)別大規(guī)模知識(shí)圖譜中的缺失邊緣非常有效。然而,如何使用這些模型來(lái)回答在一些領(lǐng)域中更復(fù)雜的查詢?nèi)匀徊磺宄?#xff08;例如使用邏輯連詞、不連詞和存在性定量器的查詢,并考慮缺失的邊緣)。在這項(xiàng)工作中,作者提出了一個(gè)框架,用于高效回答不完整知識(shí)圖譜上的復(fù)雜查詢。該框架將每個(gè)查詢轉(zhuǎn)化為一個(gè)端到端可區(qū)分的目標(biāo),其中每個(gè)原子的真值由一個(gè)預(yù)先訓(xùn)練的神經(jīng)鏈接預(yù)測(cè)器計(jì)算。在實(shí)驗(yàn)中,所提出的方法比最先進(jìn)的方法–在數(shù)百萬(wàn)個(gè)生成的查詢上訓(xùn)練的黑盒神經(jīng)模型–產(chǎn)生了更準(zhǔn)確的結(jié)果,而不需要在大量和多樣化的復(fù)雜查詢上進(jìn)行訓(xùn)練。
DiffWave: A Versatile Diffusion Model for Audio Synthesis
論文鏈接:https://www.aminer.cn/pub/5f69e4bc91e011a2f0270974/?conf=iclr2021
推薦理由:在本文中,作者提出了DiffWave,一個(gè)多功能的Diffusion概率模型,用于有條件和無(wú)條件的Waveform生成。該模型是非自回歸的,在合成時(shí)通過(guò)一個(gè)恒定步數(shù)的馬爾可夫鏈將白噪聲信號(hào)轉(zhuǎn)換為結(jié)構(gòu)化波形,并通過(guò)優(yōu)化數(shù)據(jù)似然的變異約束有效地進(jìn)行訓(xùn)練。DiffWave可以在不同的波形生成任務(wù)中產(chǎn)生高保真的音頻,包括以旋律譜圖為條件的神經(jīng)聲碼、類條件生成和無(wú)條件生成。同時(shí),作者證明了DiffWave在語(yǔ)音質(zhì)量方面可以與強(qiáng)的WaveNet vocoder相媲美,同時(shí)合成速度快了一個(gè)數(shù)量級(jí)。在具有挑戰(zhàn)性的無(wú)條件生成任務(wù)中,從各種自動(dòng)和人工評(píng)估的音頻質(zhì)量和樣本多樣性來(lái)看,該模型明顯優(yōu)于自回歸和基于GAN的波形模型。
訂閱了解更多論文信息,定制您的個(gè)人科研動(dòng)態(tài)信息流:https://www.aminer.cn/user/notification?f=mt
總結(jié)
以上是生活随笔為你收集整理的AMiner会议论文推荐第三十五期的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【PDF】《操盘手》
- 下一篇: matlab 曲线 标注,请问关于Mat