新研究起底人类和机器注意力机制的区别|一周AI最火论文
大數(shù)據(jù)文摘專欄作品
作者:Christopher Dossman
編譯:笪潔瓊、conrad、云舟
?
嗚啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly欄目又和大家見面啦!
AI ScholarWeekly是AI領(lǐng)域的學(xué)術(shù)專欄,致力于為你帶來最新潮、最全面、最深度的AI學(xué)術(shù)概覽,一網(wǎng)打盡每周AI學(xué)術(shù)的前沿資訊。
每周更新,做AI科研,每周從這一篇開始就夠啦!
?
本周關(guān)鍵詞:語音合成、GAN、深度神經(jīng)網(wǎng)絡(luò)
?
本周熱門學(xué)術(shù)研究
?
使用樣式標(biāo)記和半監(jiān)督訓(xùn)練的端到端情緒語音合成
?
來自中國的研究人員針對(duì)訓(xùn)練數(shù)據(jù)中只有一小部分具有情緒標(biāo)簽的情況,提出了一種基于全局樣式標(biāo)記(GSTs)的半監(jiān)督情緒語音合成(ESS)訓(xùn)練方法。
?
提出的模型是基于GST-Tacotron框架的。樣式標(biāo)記被定義為情感類別表示,并且在標(biāo)記權(quán)重和情感標(biāo)簽之間引入交叉熵?fù)p失,以在標(biāo)記和情感之間建立一對(duì)一的對(duì)應(yīng)關(guān)系。然后通過現(xiàn)有的情感標(biāo)簽訓(xùn)練樣本和多任務(wù)學(xué)習(xí)來估計(jì)算法參數(shù)。
?
?
改進(jìn)的情緒語音合成在促進(jìn)各種人機(jī)交互方面還有很長(zhǎng)的路要走。該模型優(yōu)于傳統(tǒng)的Tacotron情緒語音合成模型,只有5%的訓(xùn)練數(shù)據(jù)有情感標(biāo)簽。該模型僅使用了5%的情感標(biāo)簽,證明了傳統(tǒng)模型,在使用全部情感標(biāo)簽時(shí)的自然性和情感表達(dá)性。
?
情感識(shí)別實(shí)驗(yàn)證明,該方法能夠有效地實(shí)現(xiàn)樣式標(biāo)記與情感類別之間的一一對(duì)應(yīng)。
?
原文:https://arxiv.org/abs/1906.10859
?
GANalyze發(fā)布,反向啟發(fā)人類視覺機(jī)理
?
研究人員最近提出了一個(gè)新的框架,GANalyze,以研究帶來高層次認(rèn)知屬性的視覺特征和屬性。他們利用GAN的潛在空間,從現(xiàn)成的記憶預(yù)測(cè)器中生成記憶能力增加或減少的圖像。通過顯示不同范圍初始圖像的可視化,他們得出了一個(gè)不同圖像系列的目錄,并展示了與可記憶性相關(guān)的各種視覺效果。
?
?
GANalyze框架由以下交互組件組成:
●生成器G:給定一個(gè)潛在的噪聲向量z和類標(biāo)簽y,生成器生成一個(gè)逼真的圖像G(z,y)G(z,y)。
●評(píng)估器A:為表示感興趣的認(rèn)知屬性的大小的圖像分配一個(gè)數(shù)值。
●轉(zhuǎn)換器T:一個(gè)函數(shù)在G的潛在空間里,沿著一定方向θ輸入z。
?
該模型學(xué)習(xí)如何轉(zhuǎn)換z向量,以便當(dāng)輸入到生成器時(shí),生成圖像的相關(guān)屬性發(fā)生變化。動(dòng)作的轉(zhuǎn)換是通過在生成器的潛在空間中將z沿著學(xué)習(xí)到的方向θ移動(dòng)完成的。一些我們可能感興趣的屬性,比如記憶性,則是由評(píng)估器模塊來預(yù)測(cè)的。最后,α可以用來改變一個(gè)希望實(shí)現(xiàn)的評(píng)估價(jià)值,它描述了轉(zhuǎn)換器沿著θ移動(dòng)了多少。
?
在本篇論文中,GANs可以被用來提供一種非參數(shù)的方法,在這種方法中,真實(shí)的圖像可以根據(jù)它們的記憶得分進(jìn)行排序,從而直觀地顯示它們對(duì)什么記憶深刻。實(shí)驗(yàn)證明,GANalyze發(fā)現(xiàn)了圖像處理對(duì)人類記憶的影響,可以用來研究圖像美學(xué)和情感效價(jià)。
?
代碼:
https://github.com/LoreGoetschalckx/GANalyze
原文:https://arxiv.org/abs/1906.10112v1
?
用于目標(biāo)說話人語音識(shí)別的輔助干擾損失函數(shù)
?
來自美國約翰霍普金斯大學(xué)和日本日立公司的研究人員開發(fā)了一種新的輔助損失函數(shù),可以提高目標(biāo)說話人的ASR準(zhǔn)確度。他們提出的損失函數(shù)試圖最大限度地干擾和調(diào)整網(wǎng)絡(luò)以實(shí)現(xiàn)更好的表示,并同時(shí)提高目標(biāo)說話人的ASR精度。
?
研究人員在不同的信噪比條件下,使用雙說話人混合語音對(duì)新方法進(jìn)行了評(píng)估,證明了該方法的有效性。他們還對(duì)該方法和架構(gòu)進(jìn)行了多次調(diào)查,包括使用輔助分支來彌補(bǔ)提輔助ASR損失的可能性。在輔助ASR設(shè)置下,該模型不僅可以輸出目標(biāo)說話人的語音,還可以輸出其他說話人的語音,并在語音之間以一致的順序輸出。
?
?
?
據(jù)學(xué)者介紹,這是首次將基于最大互信息(LF-MMI)的聲學(xué)模型(AM)應(yīng)用于目標(biāo)說話人ASR1的研究工作。因此,評(píng)價(jià)結(jié)果客觀良好——測(cè)試集上的單詞錯(cuò)誤率(WER)為18.06%,而使用干凈數(shù)據(jù)訓(xùn)練的正常ASR單詞錯(cuò)誤率為84.71%。更進(jìn)一步地,這一輔助損失函數(shù)相對(duì)于基線額外降低了6.6%的WER.
?
在給定一個(gè)較小的目標(biāo)說話人語音樣本的情況下,該方法可以自動(dòng)從多位說話人的混合語音中提取和轉(zhuǎn)錄目標(biāo)說話人的語音。研究人員通過在模型中增加一個(gè)輔助輸出支路來觀察魯棒性,該支路也可用于干擾說話者的輔助ASR。這項(xiàng)工作對(duì)許多實(shí)際應(yīng)用具有吸引力,包括操作員自動(dòng)識(shí)別、信息回放、呼叫控制、游戲AI、醫(yī)療和法律系統(tǒng)文檔、制造業(yè)、交互式教育系統(tǒng)等等。
?
原文:https://arxiv.org/abs/1906.10876
?
深度神經(jīng)網(wǎng)絡(luò)中人體和人工注意機(jī)制的深入分析
?
最近,IEEE的研究為深度神經(jīng)網(wǎng)絡(luò)中的人體和人工注意機(jī)制提供了深入的分析。他們的工作是:神經(jīng)注意力圖是否符合人眼注視的結(jié)果?人類的注意力可以成為神經(jīng)注意的正確基準(zhǔn)嗎?注意力如何隨網(wǎng)絡(luò)類型和深度而變化?注意力可以幫助避免對(duì)抗性攻擊嗎?
?
?
他們的研究得到了三個(gè)重要計(jì)算機(jī)視覺任務(wù)系統(tǒng)實(shí)驗(yàn)的支持,包括顯著性對(duì)象分割,視頻動(dòng)作識(shí)別和細(xì)粒度分類。在評(píng)估時(shí),他們的結(jié)果表明,人類的關(guān)注能夠在注意力驅(qū)動(dòng)的任務(wù)中對(duì)有意義的“基礎(chǔ)事實(shí)”進(jìn)行基準(zhǔn)測(cè)試,其中人工關(guān)注越接近人類注意力,表現(xiàn)就越好。
?
這項(xiàng)工作表明,人類的注意力對(duì)于深度神經(jīng)網(wǎng)絡(luò)來說是有價(jià)值的,它能夠幫助神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)更好的性能并增強(qiáng)對(duì)擾動(dòng)的魯棒性,特別是對(duì)于注意力驅(qū)動(dòng)的任務(wù)。
?
值得注意的是,注意力驅(qū)動(dòng)的任務(wù)能夠在人體和人工關(guān)注之間更一致時(shí)提高模型的性能。這種一致還能使深度網(wǎng)絡(luò)更加透明、更具可解釋性,從而能夠在更高級(jí)別的計(jì)算機(jī)視覺任務(wù)中搭載魯棒的應(yīng)用。
?
原文:https://arxiv.org/abs/1906.08764v2
?
音視頻特征融合的情感識(shí)別
?
在最近的一項(xiàng)研究中,研究人員提出了一種連續(xù)情緒識(shí)別的融合方法,該方法將視覺和聽覺模態(tài)結(jié)合在其表示空間中,以預(yù)測(cè)喚醒和效價(jià)水平。該方法采用預(yù)先訓(xùn)練的CNN和轉(zhuǎn)移學(xué)習(xí)來從捕獲情緒內(nèi)容的視頻幀中提取特征。對(duì)于聽覺內(nèi)容,使用諸如韻律,激勵(lì),聲道和頻譜描述符的簡(jiǎn)約參數(shù)集作為特征。
?
?
研究中在訓(xùn)練單個(gè)支持向量回歸量(SVR)之前或者在訓(xùn)練一個(gè)SVR用于每個(gè)模態(tài)之后,特征級(jí)別上會(huì)執(zhí)行這兩種模態(tài)的融合。所提出的方法還包括預(yù)處理和后處理技術(shù),這有助于改善一致性相關(guān)系數(shù)(CCC)。用于預(yù)測(cè)RECOLA數(shù)據(jù)集上的自發(fā)和自然情緒的實(shí)驗(yàn)結(jié)果表明,該方法有效利用了視覺和聽覺模態(tài)的補(bǔ)充信息,分別為喚醒和效價(jià)提供了0.749和0.565的CCC。
?
盡管正在開發(fā)新的融合方案,但傳統(tǒng)的融合方案仍然能夠提供強(qiáng)大的結(jié)果。但同樣,在這種情況下,所提出的方法優(yōu)于大多數(shù)當(dāng)前方法,結(jié)果顯示遷移學(xué)習(xí)在視頻模態(tài)的模型中具有很大影響。
?
該工作提供了幫助研究人員和開發(fā)人員從視頻幀功能中提取和捕獲高級(jí)情感內(nèi)容的能力。
?
原文:https://arxiv.org/abs/1906.10623
?
其他爆款論文
?
基于CNN將單眼相機(jī)的圖像與給定的3D激光雷達(dá)圖相匹配:
https://arxiv.org/abs/1906.10109v1
?
DALI數(shù)據(jù)集發(fā)布,包括大型、豐富的多模音頻軌道數(shù)據(jù)及其構(gòu)建方法:https://arxiv.org/abs/1906.10606
?
CVPR 2019的ActivityNet挑戰(zhàn)詳情:https://arxiv.org/pdf/1906.10555.pdf
?
新系統(tǒng)利用視聽多模態(tài)通信的優(yōu)勢(shì)來建立說話者模型:
https://arxiv.org/pdf/1906.10042.pdf
?
在密集和異構(gòu)環(huán)境中跟蹤道路代理:
https://arxiv.org/abs/1906.10712
?
AI新聞
?
找個(gè)MIT的小哥哥或者小姐姐幫你建立機(jī)器學(xué)習(xí)模型:
https://news.mit.edu/2019/want-to-learn-how-train-ai-model-ask-friend-0625
?
谷歌人工智能高級(jí)研究科學(xué)家發(fā)布了兩篇論文和嵌入圖形的代碼,宣布圖形表示學(xué)習(xí)的創(chuàng)新:
https://ai.googleblog.com/2019/06/innovations-in-graph-representation.html
總結(jié)
以上是生活随笔為你收集整理的新研究起底人类和机器注意力机制的区别|一周AI最火论文的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 粒子群优化能做相机标定吗
- 下一篇: jquery判断元素内容是否为空的方法