一句话+一张图——说清楚Aprioir关联规则算法
一句話
關(guān)聯(lián)分析(關(guān)聯(lián)規(guī)則學習): 從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作 關(guān)聯(lián)分析(associati analysis) 或者 關(guān)聯(lián)規(guī)則學習(association rule learning)
一張圖
解釋一下這張圖:
在關(guān)聯(lián)規(guī)則Aprioir算法中,有兩個很重要的概念,分別是頻繁項集(frequent item sets),關(guān)聯(lián)規(guī)則(associational rules),它們是用來描述隱含關(guān)系的形式。
頻繁項集(frequent item sets): 經(jīng)常出現(xiàn)在一塊的物品的集合。
關(guān)聯(lián)規(guī)則(associational rules): 暗示兩種物品之間可能存在很強的關(guān)系。
那么 頻繁 的定義是什么呢?怎么樣才算頻繁呢? 度量它們的方法有很多種,這里我們來簡單的介紹下支持度和可信度。
支持度: 數(shù)據(jù)集中包含該項集的記錄所占的比例。例如上圖中,{豆奶} 的支持度為 4/5。{豆奶, 尿布} 的支持度為 3/5。
可信度: 針對一條諸如 {尿布} -> {葡萄酒} 這樣具體的關(guān)聯(lián)規(guī)則來定義的。這條規(guī)則的 可信度 被定義為 支持度({尿布, 葡萄酒})/支持度({尿布}),從圖中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。
舉個栗子唄
還是上面的那個尿布和葡萄酒的栗子,讓我們仔細的看一下它的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)過程(Aprioir)
過程1:尋找k項頻繁集
我們規(guī)定最小支持度為0.3
L1為1項頻繁集,可以從圖中看出它的計算過程為:
L2為2項頻繁集,從L1中選擇候選者(去除了小于最小支持度的數(shù)據(jù)),計算過程為:
P(豆奶,萵苣)=豆奶,萵苣共同出現(xiàn)的次數(shù)訂單總數(shù)量 P ( 豆 奶 , 萵 苣 ) = 豆 奶 , 萵 苣 共 同 出 現(xiàn) 的 次 數(shù) 訂 單 總 數(shù) 量
同理可以推出L3
過程2:發(fā)現(xiàn)關(guān)聯(lián)規(guī)則
這里舉一個例子說明,買了尿布的人也會繼續(xù)買葡萄酒的規(guī)則,支持度為0.6(前面已經(jīng)算出),那么它的置信度計算過程為:
以上就是Aprioir關(guān)聯(lián)規(guī)則算法的整體思路啦!!!
總結(jié)
以上是生活随笔為你收集整理的一句话+一张图——说清楚Aprioir关联规则算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: threejs 特效,自定义发光墙体,贴
- 下一篇: “互联网+教育”促进优质资源共享