【论文解读】ICLR 2021 |可信多模态机器学习:兼听则明,信而有征
論文解讀:韓宗博 碩士研究生 | 天津大學(xué) 智能與計(jì)算學(xué)部
指導(dǎo)老師:張長(zhǎng)青,天津大學(xué)副教授,博士生導(dǎo)師
1. 方法動(dòng)機(jī)
多模態(tài)人工智能技術(shù)正在被廣泛應(yīng)用到智能醫(yī)療、無人系統(tǒng)等重要領(lǐng)域,設(shè)計(jì)精準(zhǔn)、可靠的多模態(tài)學(xué)習(xí)技術(shù)成為支持重要應(yīng)用的關(guān)鍵。
多模態(tài)數(shù)據(jù)為智能系統(tǒng)決策提供了豐富信息,使得多模態(tài)智能系統(tǒng)可以 “兼聽則明”,提高分類和預(yù)測(cè)準(zhǔn)確性。
然而,在許多代價(jià)敏感場(chǎng)景中,多模態(tài)融合及決策的可信性往往更加重要。
對(duì)于多模態(tài)分類任務(wù),傳統(tǒng)方法通常假設(shè)各模態(tài)質(zhì)量和任務(wù)相關(guān)性是穩(wěn)定的。
但實(shí)際上,對(duì)于不同樣本或在不同場(chǎng)景下,模態(tài)的質(zhì)量和任務(wù)的相關(guān)程度往往具有動(dòng)態(tài)性。如多傳感器場(chǎng)景中,RGB 圖像在光線好時(shí)更有效,而近紅外圖像在可以在視覺困難情況下提供更重要的信息。
多模態(tài)醫(yī)學(xué)診斷中,往往存在多項(xiàng)檢查數(shù)據(jù),對(duì)于不同患者同一檢查項(xiàng)目所提供信息的重要性也會(huì)有所不同。此外,傳感器的不穩(wěn)定以及損壞導(dǎo)致數(shù)據(jù)獲取異常,也給融合帶來挑戰(zhàn)??紤]到多模態(tài)數(shù)據(jù)質(zhì)量的動(dòng)態(tài)性,需要使多模態(tài)智能系統(tǒng)可以做到可靠而且有證據(jù)地融合多模態(tài)信息,即 “信而有征”,從而提高分類和預(yù)測(cè)的穩(wěn)定性和可信性。
本文使用不確定性對(duì)此動(dòng)態(tài)性進(jìn)行建模、利用一種改進(jìn)的證據(jù)融合策略集成多模態(tài)信息。論文題為?Trusted Multi-View Classification?,現(xiàn)已被 ICLR 2021 收錄。
基于此,不僅能在模態(tài)質(zhì)量動(dòng)態(tài)變化時(shí)獲得更加穩(wěn)定的分類結(jié)果,同時(shí)能夠估計(jì)決策信心,并對(duì)分類結(jié)果和分類信心進(jìn)行模態(tài)級(jí)溯源。整體上,所提方法在多模態(tài)協(xié)同學(xué)習(xí)(兼聽則明)中,對(duì)不同模態(tài)進(jìn)行證據(jù)估計(jì)(信而有征),從而支持融合及決策的可靠性和穩(wěn)定性。
圖 1. 可信多視圖學(xué)習(xí)框架.
2. 方法框架
不確定性和證據(jù)理論
在使用 softmax 的分類模型中,最大的 softmax 輸出用于最終預(yù)測(cè)會(huì)使即使錯(cuò)誤的預(yù)測(cè)也有較高的置信度(over-confident)。
主觀邏輯(subjective logic)算法能夠很好的解決這一問題。與普通的分類不同,主觀邏輯通過將輸出建模為狄利克雷分布來獲得不同類的分配概率和不確定性。
具體地,對(duì)于視圖??,我們有
??,
其中??表示不確定性,??表示第??類的分配概率。對(duì)第??個(gè)視圖,主觀邏輯將證據(jù)??和狄利克雷分布的參數(shù)?ααα?進(jìn)行了聯(lián)系,即?α?。然后,不同類的分配概率和不確定性可以由以下公式計(jì)算得到:
?α?,
其中,?α?。
DS 組合規(guī)則用于多模態(tài)分類
對(duì)于模態(tài)??可以得到,現(xiàn)在考慮使用 DS 組合規(guī)則將??個(gè)獨(dú)立的模態(tài)所得到的分配概率進(jìn)行組合。
給定??和??,可以使用以下規(guī)則進(jìn)行融合:
??
具體的計(jì)算方式為:
??
其中??反映了??和??的沖突程度。
根據(jù) DS 組合規(guī)則的可傳遞性,我們可以得到,對(duì)于??個(gè)模態(tài)的融合方式:
??.
該組合方式具有較好的合理性和可解釋性。不同類的分配概率和不確定性計(jì)算的過程實(shí)際保證了如下特性:(1)觀測(cè)到的第??類的證據(jù)越多,分配給第??類的可能性就越大,反之亦然;(2)若所有類證據(jù)都不足,則整體不確定性較大。此外,目標(biāo)函數(shù)還通過抑制錯(cuò)誤標(biāo)簽對(duì)應(yīng)的證據(jù)避免不確定性小但分類錯(cuò)誤的情況。
通過學(xué)習(xí)獲得??
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)通常使用交叉熵?fù)p失進(jìn)行訓(xùn)練:
??.
由于模型的輸出為狄利克雷分布,需要對(duì)其進(jìn)行調(diào)整,得到下式:?
?αααψψα,?
其中?ψ?是 digamma 函數(shù)。
上述損失能夠促進(jìn)模型每個(gè)樣本的正確標(biāo)簽比其他類生成更多的證據(jù),但是不能保證錯(cuò)誤類的證據(jù)盡量少。我們期望對(duì)于錯(cuò)誤分類的樣本的證據(jù)變?yōu)?0。因此以下?lián)p失函數(shù)被引入用來對(duì)證據(jù)進(jìn)行正則化。
。
給出狄利克雷分布參數(shù)?α?后的損失可以寫作:
?ααλα?。
在多模態(tài)框架下,我們采用多任務(wù)策略,總損失如下所示:
?αα?.
3. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明,所提方法可以較為靈敏地感知噪聲的動(dòng)態(tài)變化 (更多實(shí)驗(yàn)見論文):
圖 2. 不確定性密度分布:分布內(nèi) / 外樣本對(duì)比.
圖 3. 典型確定性和不確定性分類結(jié)果.
4. 總結(jié)
針對(duì)多模態(tài)之間關(guān)系的不穩(wěn)定性或動(dòng)態(tài)性,此次研究首次提出可信多模態(tài)融合方法,設(shè)計(jì)了支持可信和可解釋的多模態(tài)分類算法。所提出的模型基于證據(jù)理論以可學(xué)習(xí)方式進(jìn)行自適應(yīng)的動(dòng)態(tài)集成,對(duì)每個(gè)樣本的每個(gè)模態(tài)進(jìn)行不確定性估計(jì),使模型能夠在復(fù)雜多變場(chǎng)景下保證分類的可靠性和穩(wěn)定性。
潛在應(yīng)用場(chǎng)景主要包括:
1. 需要可信決策的多模態(tài)分類任務(wù),如智能醫(yī)療、自動(dòng)駕駛等代價(jià)敏感任務(wù);
2. 模態(tài)質(zhì)量動(dòng)態(tài)變化的應(yīng)用場(chǎng)景;?
3. 尋求決策可溯源的多模態(tài)集成場(chǎng)景;
4. 多傳感器系統(tǒng)中容易出現(xiàn)傳感器故障的場(chǎng)景。
論文鏈接:https://openreview.net/forum?id=OOsR8BzCnl5
?
代碼鏈接:https://github.com/hanmenghan/TMC
Zongbo?Han,?Changqing?Zhang,?Huazhu?Fu,?Joey?Tianyi?Zhou,?Trusted?Multi-View?Classification,?International?Conference?on?Learning?Representations?(ICLR)?2021
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【论文解读】ICLR 2021 |可信多模态机器学习:兼听则明,信而有征的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Chrome浏览器新功能 剪贴板多平台共
- 下一篇: 腾讯视频APP如何提交反馈