基于信息论的特征选择算法综述
緒論
特征選擇的目標是從樣本數據集的原始特征F中尋找一個子集S,使得它包含盡可能多的類區分信息,即包含更多與類別C有關的知識,同時又使得子集內部的冗余程度盡量小。定義信息度量函數J(f),其目的是在原始特征集F內選擇子集S,保證其與類別C之間相關性程度最大,同時又保證子集S內部的冗余性最小。
為了方便起見,下面先對幾個常用的符號做一簡單約定:符號F和S分別表示未選的和已選的特征子集,C表示分類類別,和分別表示候選和已選的特征。
不失一般性候選特征f的信息度量函數J(f)可表示為如下形式:
其中函數為候選特征f、類別C和已選子集S之間的信息量。它主要用來表示f加入S后,S與C之間的相關程度,即f能給S帶來關于C的信息量。通常情況下,為互信息或條件互信息的形式。α是調控系數,它主要用于調節f所帶來信息量的程度,δ是懲罰因子,用于懲罰候選特征f給已選子集S帶來的冗余程度。他經常以f、C和單個已選特征s之間的互信息的形式出現。
由上式可知,倘若候選特征f能給S帶來更多信息(即上式中第一項越大),并且S產生較小的冗余性(即上市中第二項越大),那么他就是一個較好的特征(上式中J(f)越大),該特征將被優先選擇。
基于信息論的特征選擇算法
1、BIF算法
BIF(Best Individual Feature)[3]是一種最簡單也是最直觀的特征選擇算法,他的評估函數J(f)就是互信息本身,即J(f)=I(C;f)。BIF選擇算法的思想很簡單,他首先對所有候選特征f計算其評價函數J(f),并根據函數值按降序順序排序,然后選擇前k個特征組成選擇子集S。BIF算法的優點是效率高,因此他適合于高維數據情況,如文本分類等。他也經常用于混合選擇方法的預處理步驟中,以預先過濾不重要的特征。BIF的缺點也很明顯,比如他沒有考慮特征之間的相互關聯和冗余性等。
2、MIFS(Mutual Information based Feature Selection)
由于BIF算法未考慮特征的冗余性,如果S已經包含了特征f的信息量,所以f相對于S來說是無用的。另外,多個單獨最優的特征組合在一起時,其性能也未必是最優的。Battiti R.于1994提出基于互信息的特征選擇算法MIFS[4]。MIFS算法使用互信息度量候選特征與類別之間的相關性,以及與已選特征集合直接按的冗余性,以貪心策略選擇與類別相關性強且已選特征冗余度低的特征集合。
其中β 為懲罰因子,當β 取不同值時,MIFS算法性能波動較大,當β∈[0.5, 1] 時,算法性能較優。
3、mRMR(minimal redundancy maximum relevance)
與MIFS算法類似,mRMR算法[5]也采用互信息作為候選特征f與類別C之間相關性以及與已選特征集合S之間冗余性的度量標準,并且針對MIFS算法懲罰因子β 難以確定的問題,mRMR算法采用候選特征與已選特征的平均互信息作為冗余度的估值,即懲罰因子為1/|S| 。mRMR算法于2005年由Peng等人提出,評價函數為:
通過于單個已知特征s的相關性衡量f的重要性程度。
4、MIFS-U(Mutual Information Feature Selection Under Uniform Information Distribution)
Kwak和Choi指出MIFS選擇算法中評價函數J(f)的懲罰因子并不能準確地表達冗余程度的增長量。為此,他們在MIFS-U算法[6]中使用不確定性系數CU(f,s)描述f與s之間的相關冗余程度,其中CU(f,s)=I(f,s)/H(s)。另外,他們還將已選擇特征s與類別C之間的相關程度也納入懲罰因子中。總之,MIFS-U算法的特征度量標準是:
與mRMR的做法類似,Huang等將公式中的β 替換為1/|S|,并結合遺傳算法生成候選子集,然后利用支持向量機獲取較好的分類效果。
算法5:mMIFS-U
與MIFS算法類似,MIFS-U算法中參數β 的取值將影響算法性能,而β 具體取什么值是件很棘手的事情。為了解決這個問題,Novovicova等提出MIFS-U的一種改進算法,稱做mMIFS-U。它并不是利用f與s相關程度值和作為f與S的冗余程度,而實將f與S中單個已選特征相關程度最大的s作為他們之間的冗余程度。簡言之,mMIFS-U就是采用max函數取代求和操作,即:
算法6:FCBF
FCBF是Yu和Liu提出的一種基于相關性的特征選擇算法。它借助Markov blanket技術判定特征間的相似性,從而達到快速消除冗余特征的目的。在FCBF算法中,特征之間冗余性和特征與類別之間的相關程度都是通過對稱不確定性(Symmetrical Uncertainty, SU)度量的。對稱不確定性是互信息的一種歸一化表示形式,用于客服互信息固有的缺點,即互信息標準傾向于哪些具有多值的特征。給定類別C,特征f與C的對稱不確定性為:
這個函數就是FCBF算法的評價標準J(f),只不過在確定候選特征f是否冗余時,還需判斷SU(s,f)<SU(C,f)是否成立。若不等式成立,則f是一個重要的特征;反之,f是冗余的。
算法7:DDC
Qu 等指出對稱不確定性并沒有涉及 f 與 S 之間的冗余程度,這可能導致一種情況,即選擇過程會提供一些錯誤或不完全的信息。為此,他們提出決策依賴相關性來精確度量特征f和s間的依賴程度,即:
在他們提出的特征選擇算法中,I(C;f)和QC(f,s) 共同構成特征評價標準,即一個好的特征f,它的I(C;f)不僅最大,且對于任意已選特征s,QC(f,s) 同時最小。等價地,他們的標準 J(f)可以表示為如下形式:
算法8:CMIM(Conditional mutual information)
條件互信息也常被引入到特征選擇算法中,其中最著名的就是與2004年由Fleuret提出的CMIM算法。條件互信息適用于度量在某些變量一直的情況下,變量或者變量集合所包含的關于目標變量的信息量。在變量Z已知的情況下,變量X與目標Y的條件互信息定義如下:
根據定義,條件互信息在計算新變量所提供的關于目標變量的信息量的似乎后,將已知變量所提供的信息量考慮在內,即考慮了變量之間按的依賴關系,這對特征選擇來說非常適用。
CMIM算法認為候選特征f是值得選擇的,當且僅當f提供了已選特征集合S所不包含的關于類別C的信息量,即特征評價函數為I(f; C|S),且條件互信息值越大,表示特征f包含的新信息越多。考慮到I(f;C|S)的計算代價較高,Fleuret采取了一種變通的方式,即使用單個已選特征s代替整個已選特征集合S,其中s的選擇標準是使得I(f;C|s)取得最小值。由條件互信息的定義可知,如果f不包含新信息,即S中的特征包含了f所能提供的所有信息量時,I(f;C|s)取得最小值。選擇s代替S,目的是將I(f;C|s)作為f所提供新信息量的保守估計。然后按照啟發式規則,一次從候選特征集合F中選擇使I(f;C|s)取得最大值的特征f。CMIM算法的特征評價函數為:
算法9:DISR
DISR選擇算法使用另一種歸一化的互信息SR(C;S) 度量S與C之間的相關程度,其中SR(C;S)=I(C;S)/ H(C,S)。另外,為了解決熵的計算困難問題,他們利用子集中單個已選特征與類別的標準化互信息之和代替SR(C;S)。因此,DISR的評價函數表示為:
算法10:NMIFS
Estévez等人于2009年提出MIFS算法的更進一步改進算法—NMIFS(Normalized Mutual Information based Feature Selection)。由于互信息準則對可取值較多的屬性有所偏好,為減少這種拼啊好可能帶來的不利影響,NMIFS算法采用“標準化”的互信息度量候選特征f和已知特征S之間的冗余度,并把懲罰因子設為1/|S|。NMIFS算法特征評價函數為:
其中H(·)表示信息熵。
算法11:MIFS-CR
Wang 等人于 2015 年提出了 MIFS 算法的最新改進算法 MIFS-CR? (Mutual Information based Feature Selection with Class-dependent Redundancy),相較于 MIFS,MIFS-CR 仍采用互信息度量特征 f 與類別 C 之間的相關性,不同的是,該算法采用了一種更為精確的度量方式計算特征 f 與已選特征集合 S 之間的冗余程度,并且將特征子集的相關性度量函數和冗余度度量函數作為多目標優化算法的兩個目標優化函數,將最終求得的相關性最大、冗余度最低的 Pareto 最優解作為所選特征子集,取得了較好的結果。MIFS-CR 算法的特征評價函數為:
算法12:QMIFS-p
與MIFS-CR算法不同的是,QMIFS-p直接使用I(C;f,S)評估候選特征f的重要程度。為了避免已選子集S的冗余性,該算法還計算f與s之間的相關性r(f,s)。如果f與S中已選特征s的最大相關系數r(f,s)大于給定的閾值,那么f就被認為是冗余或無用的。這種提出冗余特征的做法與FCBF類似,都是采取兩步驟實現。此外,作者在估計I(C;f,S)時使用高斯核技術。總之,QMIFS-p的評價函數如下所示:
結語
此部門對于基于信息熵做特征選擇比較全的一個總結,來源于吉林大學劉華文博士論文《基于信息熵的特征選擇算法研究》。
總結
以上是生活随笔為你收集整理的基于信息论的特征选择算法综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: J2EE技术(三)——JMS
- 下一篇: 15_新闻客户端_展示文字内容完成