python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...
滿意答案
好象是有一個jieba分詞。國人寫的,有一個小男孩的頭像。挺簡單,好玩。
它里有topN的算法。我把代碼復制過來。你看一下。最關鍵的就一句話。
import sys
sys.path.append('../')
import jieba
import jieba.analyse
from optparse import OptionParser
USAGE ="usage: python extract_tags.py [file name] -k [top k]"
parser = OptionParser(USAGE)
parser.add_option("-k",dest="topK")
opt, args = parser.parse_args()
if len(args) <1:
print USAGE
#sys.exit(1)
file_name = args[0]
if opt.topK==None:
topK=10
else:
topK = int(opt.topK)
print file_name
content = open(file_name,'rb').read()
tags = jieba.analyse.extract_tags(content,topK=topK) #這一句
print ",".join(tags)
如果是英文單詞就更簡單了。可能幾句話。我試一下看
s=open("some.txt").read()
import re
words=re.findall("(?isu)(\S+)",s)
counts={}
for w in words:
try:
counts[w]+=1
except KeyError:
counts[w]=1
items=count.items()
items.sort(key=lambda x:x[1],reverse=True)
for k,v in items:
print k,v
這樣應該就可以了。
00分享舉報
總結
以上是生活随笔為你收集整理的python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql添加远程登陆权限及mysql远
- 下一篇: 超轻型的数据库sqlite