多模态语义分析_「CV学霸开讲」卷积神经网络压缩、多模态的语义分析研究
原標(biāo)題:「CV學(xué)霸開講」卷積神經(jīng)網(wǎng)絡(luò)壓縮、多模態(tài)的語義分析研究
【新智元導(dǎo)讀】2017年度百度獎(jiǎng)學(xué)金10位候選人中,人大的陳師哲和北大的王云鶴所學(xué)專業(yè)主要集中在計(jì)算機(jī)視覺,本文將詳細(xì)呈現(xiàn)CV學(xué)子的求學(xué)經(jīng)歷和研究感悟,并獨(dú)家分享他們和自己的學(xué)術(shù)大牛導(dǎo)師的相處軼事。
陳師哲同學(xué)在“多模態(tài)情感識(shí)別”和“視頻內(nèi)容自然語言描述”研究方面取得了突出的研究成果,在領(lǐng)域頂級(jí)會(huì)議和期刊發(fā)表論文十余篇,并在多項(xiàng)高水平學(xué)術(shù)競賽中取得優(yōu)異成績,表現(xiàn)出很強(qiáng)的科研能力、實(shí)踐動(dòng)手能力和科研潛力。
王云鶴在神經(jīng)網(wǎng)絡(luò)加速壓縮方面做了深入研究。他提出利用離散余弦變換將卷積神經(jīng)網(wǎng)絡(luò)預(yù)測過程中的卷積計(jì)算從空間域轉(zhuǎn)換為頻率域,在準(zhǔn)確度只有輕微下降的前提下,預(yù)測速度大幅度提升、模型消耗的存儲(chǔ)大幅度降低。該方法極具創(chuàng)新性和實(shí)用性。
陳師哲:人民大學(xué)
人大信息學(xué)院直博三年級(jí)的學(xué)生,導(dǎo)師是金琴老師。我的研究方向是多媒體計(jì)算,通過多模態(tài)的語義分析實(shí)現(xiàn)更加和諧自然的人機(jī)交互,主要分為兩個(gè)方面:
1)客觀語義分析:根據(jù)視頻內(nèi)容生成自然語言描述(video captioning),客觀地理解多模態(tài)視頻中的物體/動(dòng)作/關(guān)系等等;
2)情感語義分析:多模態(tài)情感識(shí)別和理解(multimodal affective computing),通過不同模態(tài)分析人物的情感狀態(tài)從而更好地與人類交互。
階段性研究成果介紹:
1)視頻內(nèi)容的自然語言描述生成(video captioning)
視頻內(nèi)容的自然語言描述生成(video captioning)的研究目標(biāo)是為視頻內(nèi)容生成自然語言描述,這是視頻語義內(nèi)容理解的最高目標(biāo)之一。這一研究具有非常廣泛的應(yīng)用價(jià)值,例如幫助視力有障礙的人群理解認(rèn)識(shí)周圍的世界;更好地對(duì)互聯(lián)網(wǎng)視頻進(jìn)行索引、存儲(chǔ)、分析和推薦,使得用戶能夠更好地瀏覽、選擇、搜索視頻內(nèi)容等等。
目前圖片內(nèi)容描述的自動(dòng)生成(image captioning)已經(jīng)取得了非常顯著的進(jìn)步,但是和imagecaptioning相比,video captioning這一研究更為挑戰(zhàn),主要的難點(diǎn)包括:
A. 多模態(tài):視頻包含多種模態(tài)信息,例如視覺/聲音/文本等等。為全面準(zhǔn)確理解視頻內(nèi)容,我們提取了多模態(tài)特征,提出多模態(tài)融合模型有效利用融合多模態(tài)。
B. 時(shí)序性:物體或事件的時(shí)間發(fā)展順序影響著對(duì)視頻內(nèi)容的理解。因此,我們采用了時(shí)序模型和時(shí)序注意力機(jī)制對(duì)視頻的時(shí)序特性進(jìn)行建模。
C. 主題廣:視頻的主題跨度非常廣泛,不同主題下,多模態(tài)融合策略和語言描述空間有較大差異。因此,我們提出隱含主題指導(dǎo)模型,自動(dòng)挖掘視頻中的隱含主題,利用這些主題指導(dǎo)生成更準(zhǔn)確和細(xì)節(jié)的描述。
我們的視頻內(nèi)容描述模型在2016-2017年連續(xù)2年獲得了在國際多媒體頂級(jí)會(huì)議ACM Multimedia上由微軟組織的視頻內(nèi)容描述挑戰(zhàn)賽MSR-VTT的冠軍,和2017年NISTTRECVID上舉辦的國際視頻內(nèi)容描述冠軍。
2)多模態(tài)情感識(shí)別(multimodal emotion recognition)
理解人類的情感是構(gòu)建自然的人機(jī)交互非常重要的一步。這一研究在服務(wù)/教育/娛樂/醫(yī)業(yè)等不同產(chǎn)業(yè)都有著非常廣泛的應(yīng)用,例如通過對(duì)用戶的自動(dòng)情感識(shí)別改善自動(dòng)服務(wù)中對(duì)用戶的交互方式等等。
我們的研究主要致力于情感識(shí)別的兩大基本模型:離散情感識(shí)別和維度情感識(shí)別。主要的技術(shù)難點(diǎn)包括:
A. 情感特征構(gòu)建:人的情感是通過不同的模態(tài)信息反映的,包括面部表情/肢體動(dòng)作/語音語調(diào)/說話內(nèi)容/生理信號(hào)等等。因此,我們基于信號(hào)處理和深度學(xué)習(xí)等方法從不同的模態(tài)中提取情感區(qū)分力顯著的情感特征。
B. 多模態(tài)情感特征融合:不同模態(tài)特征在不同場合情形下的可信度和情感表現(xiàn)力是不同的。 因此,我們提出了條件注意力模型動(dòng)態(tài)地進(jìn)行多模態(tài)情感特征融合。
C. 時(shí)序性:人的情感狀態(tài)是動(dòng)態(tài)變化的,且非常具有時(shí)序依賴性。因此,我們提出了動(dòng)態(tài)時(shí)序模型進(jìn)行連續(xù)的維度情感識(shí)別。
與導(dǎo)師相處軼事:
1)治學(xué)嚴(yán)謹(jǐn):從金老師身上我感受到的是一個(gè)學(xué)者嚴(yán)謹(jǐn)務(wù)實(shí)的態(tài)度。例如,在我最初論文寫作的過程中,她會(huì)跟我反復(fù)斟酌論文的邏輯框架,每一個(gè)公式都會(huì)嚴(yán)謹(jǐn)?shù)赝扑?#xff0c;每一個(gè)詞都會(huì)細(xì)細(xì)地推敲。當(dāng)時(shí)距離論文截止日期非常近,我們就連續(xù)十多個(gè)小時(shí)在辦公室里討論和修改,最終呈現(xiàn)出令人滿意的工作。
2)工作投入:金老師對(duì)待工作熱情投入的態(tài)度給我極大的鼓舞。平時(shí),我經(jīng)常收到金老師在凌晨3、4點(diǎn)的工作郵件;去開會(huì)的旅途中,大家一般都選擇休息閑聊,而金老師卻仍然保持著積極的工作狀態(tài),閱讀鉆研前沿論文;即使放假的時(shí)候,哪怕是春節(jié)等重大節(jié)日,金老師也依然會(huì)和我們保持緊密的聯(lián)系,保證科研工作的推進(jìn)。
3)關(guān)心學(xué)生:金老師不僅是我在學(xué)術(shù)研究中的導(dǎo)師,更是我人生生涯中的良師。有一次在論文死線前壓力大想放棄的時(shí)候,她沒有苛責(zé)我,而是非常溫柔地告誡我說放棄是很簡單一件事,并不會(huì)有有特別嚴(yán)重的后果,但是很多事情的機(jī)會(huì)就只有一次,錯(cuò)過了就不能重來,為什么不激勵(lì)自己堅(jiān)持做完不留遺憾呢。
金老師在生活上也非常關(guān)心我。這次出國以后,有次和老師不經(jīng)意聊天提到一件在國外不好買的東西,結(jié)果之后一起參加學(xué)術(shù)會(huì)議時(shí)她竟然就從國內(nèi)帶過來送給我了。更讓我感動(dòng)的是,即使在科研一線、百忙之中,金老師每年都會(huì)給學(xué)生發(fā)去生日祝福。
王云鶴:北京大學(xué)
北京大學(xué)智能科學(xué)系2013級(jí)直博研究生,我在神經(jīng)網(wǎng)絡(luò)加速壓縮方面做了深入研究,提出利用離散余弦變換將卷積神經(jīng)網(wǎng)絡(luò)預(yù)測過程中的卷積計(jì)算從空間域轉(zhuǎn)換為頻率域,在準(zhǔn)確度只有輕微下降的前提下,預(yù)測速度大幅度提升、模型消耗的存儲(chǔ)大幅度降低。該方法極具創(chuàng)新性和實(shí)用性。
深度卷積神經(jīng)網(wǎng)絡(luò)壓縮這個(gè)課題非常具有應(yīng)用前景,因?yàn)樯疃葘W(xué)習(xí)模型在大多數(shù)任務(wù)(例如圖像識(shí)別、圖像超分辨率等)上的精度已經(jīng)達(dá)到了落地需求,但是它們的線上速度和內(nèi)存消耗還沒有達(dá)到落地需求。
深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在計(jì)算機(jī)視覺上得到了廣泛的應(yīng)用,例如圖像分類、人臉驗(yàn)證等。然而,大多數(shù)的卷積神經(jīng)網(wǎng)絡(luò)難以被應(yīng)用在移動(dòng)端設(shè)備上。例如,利用AlexNet或VGGNet對(duì)一張圖片進(jìn)行處理需要消耗超過232MB的內(nèi)存以及數(shù)十億次的浮點(diǎn)數(shù)乘法計(jì)算。因此,如何壓縮并且加速這些復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)是非常重要的一個(gè)研究課題。
為了解決上述問題,我的研究提出利用離散余弦變換(DCT)在頻域上對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮與加速。卷積核被看做小尺度的光滑圖像塊,每個(gè)卷積核在頻域上的表示被分解為共有部分和私有部分的和;共有部分用來指代每個(gè)卷積核與其他卷積核相似的方面,而私有部分用來指代其獨(dú)特的信息。
這兩個(gè)部分都可以通過舍棄大量微弱系數(shù)來實(shí)現(xiàn)壓縮和加速的目的。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)了本研究所提出的算法要優(yōu)于其它算法。
圖1: CNNpack算法流程圖
圖2: CNNpack算法的壓縮結(jié)果
深度卷積神經(jīng)網(wǎng)絡(luò)壓縮這個(gè)課題非常具有應(yīng)用前景,因?yàn)樯疃葘W(xué)習(xí)模型在大多數(shù)任務(wù)(例如圖像識(shí)別、圖像超分辨率等)上的精度已經(jīng)達(dá)到了落地需求,但是它們的線上速度和內(nèi)存消耗還沒有達(dá)到落地需求。然而,越來越多的實(shí)際應(yīng)用需要用到這些深度學(xué)習(xí)模型,例如手機(jī)、智能攝像頭、無人車等。所以如何設(shè)計(jì)更輕便、更高精度的深度神經(jīng)網(wǎng)絡(luò)仍舊是一個(gè)亟需解決的問題。
很幸運(yùn)在讀博期間能有兩個(gè)指導(dǎo)老師,第一個(gè)是北京大學(xué)的許超老師,印象最深刻的一句話是“磨刀不誤砍柴工”,曾經(jīng)在一個(gè)小的數(shù)據(jù)集上跑檢索實(shí)驗(yàn)需要半個(gè)小時(shí),優(yōu)化代碼后只需要兩分鐘,從此走向了一個(gè)略有強(qiáng)迫癥性質(zhì)的coding之路。許超老師給人的感覺很平和,正如他微信號(hào)的簽名一樣,“上善若水”,有次ddl前生病了,許老師說“生病了就好好休息,會(huì)議還有很多,我們?nèi)ネ断乱粋€(gè)”,淚目。
另外一位是悉尼大學(xué)的陶大程老師,陶老師經(jīng)常給予我非常大的鼓勵(lì),印象最深刻的一句話是“anyway,云鶴,我覺得你這個(gè)idea,very smart”哈哈。陶老師是一個(gè)在學(xué)術(shù)上非常嚴(yán)謹(jǐn),成果非常多,業(yè)內(nèi)知名的華人學(xué)者。最佩服的品質(zhì)還是敬業(yè),按道理,一個(gè)某種程度上來說功成名就的人,對(duì)每一個(gè)學(xué)生的每篇論文都認(rèn)真修改。有時(shí)候自己讀了幾遍都沒發(fā)現(xiàn)的錯(cuò)別字和語法錯(cuò)誤都會(huì)被陶老師發(fā)現(xiàn)并作出修改。并且陶老師每天的工作時(shí)間超越了他的所有學(xué)生。
讀博最大的收獲就是提出了CNNpack算法,發(fā)表在NIPS2016上,并于海思合作,第一次體會(huì)到了學(xué)術(shù)上的算法可以受到工業(yè)界的關(guān)注。期間最大的困難在于深度學(xué)習(xí)的模型都需要非常大的計(jì)算量和計(jì)算資源,所以許超老師購置了新的服務(wù)器,并把組內(nèi)的計(jì)算資源都先優(yōu)先給我使用,非常信任和認(rèn)可我的工作。同時(shí),結(jié)合傳統(tǒng)圖像壓縮和視頻壓縮的算法,給出了很重要的算法上的意見。
此外,現(xiàn)有的方法大多數(shù)都是在圖像分類的實(shí)驗(yàn)上進(jìn)行驗(yàn)證的,例如VGGNet,ResNet等。實(shí)際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)的需求是多種多樣的,例如語音語義識(shí)別、物體分割等。這些模型具有和圖像分類神經(jīng)網(wǎng)絡(luò)不一樣的功能和結(jié)構(gòu),所以更具體的算法也需要被提出。返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的多模态语义分析_「CV学霸开讲」卷积神经网络压缩、多模态的语义分析研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Siamese网络(孪生网络)
- 下一篇: svn回退到指定版本idea版