使用FP-growth算法发现频繁项集
生活随笔
收集整理的這篇文章主要介紹了
使用FP-growth算法发现频繁项集
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
源碼如下:
#coding=utf-8''' Created on Jun 14, 2011 FP-Growth FP means frequent pattern the FP-Growth algorithm needs: 1. FP-tree (class treeNode) 2. header table (use dict)This finds frequent itemsets similar to apriori but does not find association rules. @author: Peter使用FP-growth算法發現頻繁項集FP-growth只會掃描數據集兩次,它發現頻繁項集的基本過程如下:(1)構建FP樹(2)從FP樹中挖掘頻繁項集FP-growth算法 優點:一般要快于Apriorio 缺點:實現比較困難,在某些數據集上性能會下降。 適用數據類型:標稱型數據。FP-growth算法將數據存儲在一種稱為FP樹的緊湊數據結構中。FP代表頻繁模式(Frequent Pattern )。一棵FP樹看上去與計算機科學中的其他樹結構類似,但是它通過鏈接(link)來連接相 似元素,被連起來的元素項可以看成一個鏈表。同搜索樹不同的是,一個元素項可以在一棵FP樹中出現多次。FP樹會存儲項集的出現頻率, 而每個項集會以路徑的方式存儲在樹中。存在相似元素的集合會共享樹的一部分。只有當集合之 間完全不同時,樹才會分叉。樹節點上給出集合中的單個元素及其在序列中的出現次數,路徑 會給出該序列的出現次數。FP-growth的一般流程 (1)收集數據:使用任意方法。 (2)準備數據:由于存儲的是集合,所以需要離散數據。如果要處理連續數據,需要將它們量化為離散值。 (3)分析數據:使用任意方法。 (’)訓練算法:構建一個FP樹&#總結
以上是生活随笔為你收集整理的使用FP-growth算法发现频繁项集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DELL服务器安装过程中的三种模式AHC
- 下一篇: chapter13 机器学习之利用PCA