apriori算法代码_sklearn(九)apriori 关联规则算法,以及FP-growth 算法
是什么:
apriori算法是第一個(gè)關(guān)聯(lián)規(guī)則挖掘算法,利用逐層搜索的迭代方法找出數(shù)據(jù)庫中的項(xiàng)集(項(xiàng)的集合)的關(guān)系,以形成規(guī)則,其過程由連接(類矩陣運(yùn)算)與剪枝(去掉沒必要的中間結(jié)果)組成。是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。
關(guān)聯(lián)規(guī)則挖掘,在最早提出時(shí),是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則??坍嬵櫩唾徺I行為模型,指導(dǎo)商家科學(xué)地進(jìn)行進(jìn)貨,庫存以及貨架設(shè)計(jì)等。
改進(jìn)的算法有:并行關(guān)聯(lián)規(guī)則挖掘Parallel Association Rule Mining,以及數(shù)量關(guān)聯(lián)規(guī)則挖掘Quantitive Association Rule Mining。提高挖掘規(guī)則算法的效率,適應(yīng)性,可用性以及應(yīng)用推薦。
頻繁項(xiàng)集的評估標(biāo)準(zhǔn):支持度,置信度,提升度三個(gè)方面。
應(yīng)用領(lǐng)域:在商業(yè),網(wǎng)絡(luò)安全廣泛使用。通過對數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價(jià)值。
在消費(fèi)市場價(jià)格分析中,能夠很快求出各種產(chǎn)品之間的價(jià)格關(guān)系和它們之間的影響,可以瞄準(zhǔn)目標(biāo)客戶,采用個(gè)人股票行市,最新細(xì)心,特殊的市場推廣活動(dòng)或其他的一些特殊信息手段,減少廣告預(yù)算和增加收入。預(yù)測客戶的消費(fèi)習(xí)慣。
相關(guān)概念:
支持度:a和b同時(shí)出現(xiàn)的概率,或者是幾個(gè)關(guān)聯(lián)的數(shù)據(jù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重。
置信度:a和b同時(shí)出現(xiàn)的概率占a出現(xiàn)概率的比值,或者是一個(gè)數(shù)據(jù)出現(xiàn)后,另一個(gè)數(shù)據(jù)出現(xiàn)的概率,或者說數(shù)據(jù)的條件概率。
提升度:表示含有y的條件下, 同時(shí)含有x的概率,與x總體發(fā)生的概率之比。提升度體現(xiàn)了x和y之間的關(guān)聯(lián)關(guān)系,提升度大于1則xy是有效的強(qiáng)關(guān)聯(lián)規(guī)則,小于等于1則是無效的強(qiáng)關(guān)聯(lián)規(guī)則。
頻繁項(xiàng)集:頻繁項(xiàng)集挖掘可以告訴我們在數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的變量,為可能的決策提供一些支持。頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則,相關(guān)性分析,因果分析,序列項(xiàng)集,局部周期性等許多數(shù)據(jù)挖掘任務(wù)的基礎(chǔ)。應(yīng)用在購物車分析,網(wǎng)頁預(yù)取,交叉購物,個(gè)性化網(wǎng)站等。
強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
相類似的算法:
PrefixSpan
CBA
FP-Tree
GSP
FP-growth 算法
屬于關(guān)聯(lián)分析算法,采取的分治策略如下:將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一顆頻繁模式樹FP-Tree ,保留項(xiàng)集關(guān)聯(lián)信息。在算法中使用了一種稱為頻繁模式樹的數(shù)據(jù)結(jié)構(gòu),fp-tree是一種特殊的前綴樹,有頻繁項(xiàng)頭表和項(xiàng)前綴樹構(gòu)成。用于改善Apriori算法,加快整個(gè)挖掘過程。
相關(guān)概念:
FP-Tree :將事務(wù)數(shù)據(jù)表中的各個(gè)事務(wù)數(shù)據(jù)項(xiàng)按照支持度排序后,把每個(gè)事務(wù)中的數(shù)據(jù)項(xiàng)按降序一次插入到一顆以null為根節(jié)點(diǎn)的樹中,同時(shí)在每個(gè)節(jié)點(diǎn)處記錄該節(jié)點(diǎn)出現(xiàn)的支持度。
條件模式基:包含F(xiàn)P-Tree中與后綴模式一起出現(xiàn)的前綴路徑的集合。
條件樹:將條件模式基按照FP-Tree的構(gòu)造原則形成的一個(gè)新的FP-Tree。
基本思路:不斷的迭代FP-Tree的構(gòu)造和投影過程。
算法描述:
該算法的流程為:首先構(gòu)造FP樹,然后利用ta來挖掘頻繁項(xiàng)集。在構(gòu)造fp樹時(shí),需要對數(shù)據(jù)集掃描兩次,一次為用來統(tǒng)計(jì)頻率(頻次和頻率),第二次掃描至考慮頻繁項(xiàng)集。
缺點(diǎn):
參考:
https://bainingchao.github.io/2018/09/27/%E4%B8%80%E6%AD%A5%E6%AD%A5%E6%95%99%E4%BD%A0%E8%BD%BB%E6%9D%BE%E5%AD%A6%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99Apriori%E7%AE%97%E6%B3%95/?bainingchao.github.io數(shù)據(jù)挖掘十大算法--Apriori算法_小硒---代碼無疆-CSDN博客?blog.csdn.netSuranyi:Apriori 算法簡介及 python3實(shí)現(xiàn)?zhuanlan.zhihu.com機(jī)器學(xué)習(xí)(九)-FP-growth算法 - Yabea - 博客園?www.cnblogs.comFP Tree算法原理總結(jié) - 劉建平Pinard - 博客園?www.cnblogs.comFP-growth算法--原理_jmhIcoding-CSDN博客?blog.csdn.netSuperman:FP-Growth算法簡介?zhuanlan.zhihu.com總結(jié)
以上是生活随笔為你收集整理的apriori算法代码_sklearn(九)apriori 关联规则算法,以及FP-growth 算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javascript(JS)混淆工具
- 下一篇: java验证码的代码_java实用验证码