数据挖掘学习日志(part1)--熵值法
學習筆記,僅供參考
熵值法
信息熵介紹
信息熵是將系統無序程度的度量,信息是系統有序程度的度量,二者絕對值相等但符號相反,某項指標的指標值變異程度越大,信息熵就越小,該指標提供的信息量就越大,該指標的權重也應越大;反之,某項指標的指標值變異程度越小,信息熵越大,該指標提供的信息量越小,該指標的權重也應越小。
計算步驟
首先,我們由于指標體系中的各個指標的量綱、數量級不同,我們需要對它們進行無量綱化處理,具體方法如下:
Positiveindicators:xij′=xij?xminxmax?xminNegativeindex:xij′=xmax?xijxmax?xminPositive \; indicators:x'_{ij} = \frac{x_{ij}-x_{min}}{x_{max}-x_{min}} \\Negative \; index: x'_{ij} = \frac{x_{max}-x_{ij}}{x_{max}-x_{min}} Positiveindicators:xij′?=xmax??xmin?xij??xmin??Negativeindex:xij′?=xmax??xmin?xmax??xij??
其中,xijx_{ij}xij?為第iii個樣本第jjj個指標的指標值,xmaxx_{max}xmax?為第jjj個指標的最大值,xminx_{min}xmin?為第jjj個指標的最小值,其中有mmm個樣本,nnn個指標。
根據各項指標值的變異程度,利用信息熵工具,計算出各指標權重,具體步驟為:
- 將各指標同度量化,計算第jjj項指標下第iii個樣本指標值的比重
pij=xij∑i=1mxijp_{ij}= \frac{x_{ij}}{\sum_{i=1}^m x_{ij}} pij?=∑i=1m?xij?xij??
- 計算第jjj項指標的熵值eje_jej?
$$ e_j = -k \sum_{i=1}^m p_{ij}lnp_{ij} $$
其中,k>0k>0k>0,ej≥0e_j \ge 0ej?≥0,如果xijx_{ij}xij?對于給定的jjj全部相等。則pij=1mp_{ij}=\frac{1}{m}pij?=m1?,此時eje_jej?取極大值,即:
ej=?k∑i=1m1mln1m=klnme_j = -k \sum_{i=1}^m \frac{1}{m} ln \frac{1}{m} = klnm ej?=?ki=1∑m?m1?lnm1?=klnm
若設k=1lnmk=\frac{1}{lnm}k=lnm1?,于是有0≤ej≤10\le e_j \le 10≤ej?≤1.
- 計算第jjj項指標的差異性系數gig_igi?
gj=1?ejg_j=1-e_j gj?=1?ej?
- 對于差異性系數進行歸一化,可計算出各指標的權重
wj=gj∑k=1mgkw_j = \frac{g_j}{\sum_{k=1}^m g_k} wj?=∑k=1m?gk?gj??
總結
以上是生活随笔為你收集整理的数据挖掘学习日志(part1)--熵值法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么做羊脑汤 自己做羊脑汤的方法
- 下一篇: iPhone手机屏幕分辨率(苹果手机最大