关联规则算法php,科学网—加权关联规则权值的计算 - 叶文菁的博文
加權(quán)關(guān)聯(lián)規(guī)則挖掘(以apriori和fp-tree算法為例)的權(quán)值計(jì)算。
以下面的數(shù)據(jù)為例來進(jìn)行說明,表2中的交易權(quán)重和歸一化權(quán)重只是截圖結(jié)果,這里的具體數(shù)值可不要考慮。
加權(quán)支持度的計(jì)算為Sup(B)=count(B)*W(B)/總數(shù);Sup(BD)=count(BD)*W(BD)/總數(shù)。
這里就是討論W(BD)有幾種計(jì)算方法及其優(yōu)劣。
根據(jù)表1和表2可以很容易計(jì)算出單個(gè)項(xiàng)目的支持度,如Sup(B)=5*1/6=0.83
若要計(jì)算多個(gè)項(xiàng)目的支持度,如Sup(BD),Sup(BDA)那么項(xiàng)集BD或BDA的權(quán)值應(yīng)該如何選取,即計(jì)算交易權(quán)重的方法,有以下幾種:
1、取每條交易記錄的最大值,如BDAC中權(quán)值最大的那個(gè)作為權(quán)值
2、取平均值,表2的交易權(quán)重即為該方法計(jì)算得出,這樣計(jì)算不能突出重點(diǎn)項(xiàng)目
3、歸一化值:Wi''=Wi/(W1+W2+……+Wk) ;W=(W1''+W2''+……+Wk'')/n,權(quán)值可能很小
4、
5、該方法的權(quán)值可能大于1
6、W(AB)=W(A)*W(B)/(W(A)+W(B))
7、若數(shù)據(jù)有兩個(gè)維度,即X,Y分別屬于不同維度,如X表示所購買的商品,Y表示購買的位置,則權(quán)值可以這樣計(jì)算:W(X)*W(Y)
若權(quán)值大于1,可以進(jìn)行歸一化處理。
總之,權(quán)值的計(jì)算還有很多方法,計(jì)算時(shí)要根據(jù)自己數(shù)據(jù)的特點(diǎn)來選定。但是要注意關(guān)聯(lián)規(guī)則挖掘的頻繁及向下封閉的特性,即如果{AB}或{C}不頻繁,則{ABC}也不頻繁。如上述方法1、2就不可保證該特性,會(huì)造成數(shù)據(jù)的流失。這時(shí)候需要對(duì)關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),來適應(yīng)權(quán)值的需要。
轉(zhuǎn)載本文請(qǐng)聯(lián)系原作者獲取授權(quán),同時(shí)請(qǐng)注明本文來自葉文菁科學(xué)網(wǎng)博客。
鏈接地址:http://blog.sciencenet.cn/blog-882768-742786.html
上一篇:weka進(jìn)行關(guān)聯(lián)規(guī)則挖掘Apriori篇
下一篇:帶背景word如何轉(zhuǎn)成pdf格式(2010)及提取背景圖片
總結(jié)
以上是生活随笔為你收集整理的关联规则算法php,科学网—加权关联规则权值的计算 - 叶文菁的博文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 相邻记录日期差 oracle,sql 相
- 下一篇: 海马铭嘉床垫怎样?