非香农类信息不等式_ICLR 2020 | 北大图灵班满分论文:基于计算约束下有用信息的信息论...
【導(dǎo)讀】這章主要是對(duì)連續(xù)變量熵等相關(guān)內(nèi)容進(jìn)行了介紹。其中美國(guó)物理學(xué)家Jaynes教授1957 年提出的最大熵原理是最為核心的理論貢獻(xiàn)。該原理特別深刻,要知道它不僅是應(yīng)用在統(tǒng)計(jì)推斷方面,在很多領(lǐng)域中都可以成為一種原理給出信息論層面上的解釋。基于最大熵原理可以根據(jù)不同約束導(dǎo)出各種概率分布函數(shù)(第8頁(yè))。過(guò)去認(rèn)為熵是基于概率分布為已知而得到的一種結(jié)果。而最大熵原理給我的理解熵猶似“源”,因?yàn)樗蓪?dǎo)出概率分布表達(dá)。反之則不然,因?yàn)橛?jì)算與導(dǎo)出表達(dá)是不同的。本章中另一個(gè)重要知識(shí)是不等式的學(xué)習(xí)與理解。如同香港中文大學(xué)楊偉豪教授指出的那樣(第39頁(yè)):信息論不等式給出了不可能發(fā)生的界,因此這將猶如信息論中的定律。比如其中Fano不等式與Kovalevskij不等式建立了條件熵與誤差之間的關(guān)系,對(duì)機(jī)器學(xué)習(xí)中應(yīng)用信息論指標(biāo)有著直接的指導(dǎo)意義,并提供理論解釋性。
第8頁(yè): 該頁(yè)介紹了最大互信息可以導(dǎo)出經(jīng)驗(yàn)式定義的相關(guān)系數(shù),而其中的約束是隨機(jī)變量最高階次統(tǒng)計(jì)量只有二階。由此例子我學(xué)到的內(nèi)涵有:一是信息論指標(biāo)更是“源”指標(biāo)(導(dǎo)出其它,而非相反)。二是熵函數(shù)優(yōu)化加約束可以提供更大的理論解釋空間。三是熵指標(biāo)原理上包容高階統(tǒng)計(jì)量。
第27頁(yè): 這頁(yè)內(nèi)容是關(guān)于二值分類問(wèn)題中,條件熵與誤差之間界關(guān)系的討論。本人2015年文章中的圖給出了Fano下界曲線與Kovalevskij上界曲線。由于該文是討論貝葉斯分類器,因此兩類中的類別分布信息p_1與p_2已知。比如T中100個(gè)樣本,有20個(gè)蘋果,有80個(gè)鴨梨為標(biāo)簽。則p_1=0.2,p_2=0.8。由貝葉斯誤差是分類器中理論上最小值這個(gè)知識(shí)(見(jiàn)Duda《模式分類》中文版第36頁(yè)),文章添加了另一個(gè)上界,在此是藍(lán)色橫線p_min=p_1=0.2表示的。此界說(shuō)明對(duì)于給定類別分布的貝葉斯分類器,不可能出現(xiàn)誤差大于0.2的情況。圖中三角代表貝葉斯分類器計(jì)算結(jié)果,而圓圈代表互信息分類器計(jì)算結(jié)果。可以看到該結(jié)果已經(jīng)超出Kovalevskij上界,這里就引出了我們后來(lái)發(fā)展的界研究工作。這將是第5章中的內(nèi)容。
該圖示意了貝葉斯誤差最小學(xué)習(xí)目標(biāo)與條件熵最小學(xué)習(xí)目標(biāo)在作用力方面有著等價(jià)的內(nèi)涵。都是趨向原點(diǎn)。但是分類問(wèn)題中多數(shù)情況是無(wú)法到達(dá)原點(diǎn)。因此兩者通常沒(méi)有一對(duì)一的關(guān)系。即根據(jù)給定樣本分布得到的最小貝葉斯誤差,其對(duì)應(yīng)的條件熵有多解,可以不是最小條件熵。反之亦然。由此要理解條件熵有誤差的近似內(nèi)涵,但本質(zhì)上是兩個(gè)隨機(jī)變量獨(dú)立性的指標(biāo)(第22頁(yè))。
總結(jié)
以上是生活随笔為你收集整理的非香农类信息不等式_ICLR 2020 | 北大图灵班满分论文:基于计算约束下有用信息的信息论...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: dede文章采集管理php,织梦采集规则
- 下一篇: c语言恶搞小程序win7,如何使用c语言