python如何使用apriori_python-如何加快基于Apriori框架的速度,以仅生...
我有一個具有60萬行和15列的csv文件“ Col1,Col2 … COl15”.我想生成關聯(lián)規(guī)則,其中只有右側只有col15中的值.我正在使用here的apriori實現(xiàn)
它以這種方式計算每個項目集的minSupport:
oneCSet = returnItemsWithMinSupport(itemSet,
transactionList,
minSupport,
freqSet)
print "reached line 80"
currentLSet = oneCSet
k = 2
while(currentLSet != set([])):
print k
largeSet[k-1] = currentLSet
currentLSet = joinSet(currentLSet, k)
currentCSet = returnItemsWithMinSupport(currentLSet,
transactionList,
minSupport,
freqSet)
currentLSet = currentCSet
k = k + 1
def returnItemsWithMinSupport(itemSet, transactionList, minSupport, freqSet):
"""calculates the support for items in the itemSet and returns a subset
of the itemSet each of whose elements satisfies the minimum support"""
_itemSet = set()
localSet = defaultdict(int)
#print itemSet
for item in itemSet:
#print "I am here", list(item)
for transaction in transactionList:
if item.issubset(transaction):
freqSet[item] += 1
localSet[item] += 1
print "Done half"
for item, count in localSet.items():
support = float(count)/len(transactionList)
if support >= minSupport:
_itemSet.add(item)
return _itemSet
但是對于我擁有的許多行,這將花費很多時間,因為我希望RHS被限制為僅具有特定列(Col15)中的值,所以我可以通過某種方式減少頻繁使用的項目集來使實現(xiàn)更快?其他方法之一是最后過濾規(guī)則,但是時間復雜度相同.還是有其他一些實現(xiàn)/庫可以幫助我加快速度?
總結
以上是生活随笔為你收集整理的python如何使用apriori_python-如何加快基于Apriori框架的速度,以仅生...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ftp 工具_ftp,ftp工具多大
- 下一篇: 凸透镜成像动画可拖动_经典四图八问!这道