高频词提取
高頻詞一般指的是在文章中出現頻率較高的且有意義的一些詞語,一定程度上代表了文檔的焦點所在。所以也可以將其當做關鍵詞。
本文的分詞工具使用了jieba分詞。
首先,引入要用的包并且讀取待處理的文檔數據:
import glob import random import jieba def get_content(path):with open(path,'r',encoding='gbk',errors='ignore')as f:content=''for l in f:l=l.strip()content+=lreturn content然后定義高頻詞統計的函數,輸入是一個詞的數組。
def get_TF(words,topK=10):tf_dic={}for w in words:tf_dic[w]=tf_dic.get(w,0)+1return sorted(tf_dic.items(),key=lambda x:x[1],reverse=True)[:topK]然后定義讀取停用詞表的函數:
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords主函數:
def main():files=glob.glob('./data/news/C000013/*.txt')#glob.glob匹配所有的符合條件的文件,并將其以list的形式返回corpus=[get_content(x) for x in files]sample_inx=random.randint(0,len(corpus))stopwords=stopwordslist('./data/stop_words.utf8')split_words=[x for x in jieba.cut(corpus[sample_inx]) if x not in stopwords]print('樣本之一:'+corpus[sample_inx])print('樣本分詞效果:'+'/'.join(split_words))print('前十個高頻詞:'+str(get_TF(split_words)))然后運行主函數main(),得到輸出:
樣本之一:自2006年4月18日起,金象大藥房白塔寺藥店將對1036個品種的藥品價格進行下調。其中西藥405種、中成藥442種和保健品189種。遴選藥品平均降幅為15%~25%,有些品種的降幅達到了50%以上。此次降價的品種大部分是治療常見病、多發病、慢性病的藥品。不僅有國產藥,也包括外資類藥品和合資類藥品。如:同仁堂科技發展股份生產的感冒清熱顆粒,由原來的每盒14元降為每盒9.8元,降幅30%;中美上海施貴寶制藥有限公司生產的日夜百服嚀,由原來的每盒13.9元降為每盒11元,降幅20.86%;石藥集團中諾藥業生產的復方降壓片,由原來的每盒5.2元降為每盒3元,降幅42.31%;輝瑞制藥有限公司生產的絡活喜片,由原來的每盒47.5元,降為每盒40.8元,降幅14.11%;北京大恒倍生制藥廠生產的復方丹參片,由原來的每盒8.8元降為每盒2元,降幅77.27%;(德國)諾華制藥生產的新山地明,由原來的每盒629.5元降為每盒560元,降幅11.04%。據北京金象大藥房醫藥連鎖有限公司董事長介紹,此次藥品降價是企業強調要以保證藥品質量、節約成本降低企業管理內耗的前提下實施的,是積極探討細化管理、合理使用藥學人員、提高工作效率來縮減成本讓利于消費者的一種嘗試,是履行企業“致力藥業,護佑安康”使命的一種體現。實事求是地說,這次藥品價格的調整降低了藥店的利潤空間,金象也是根據企業經營的實際狀況經過仔細斟酌而推出的讓利于民的銷售價格。通過這一嘗試,金象還將視實際的情況對其他門店的藥品價格進行調整。據了解,金象與北京市其他幾家本土品牌藥店占據了六成左右的北京藥品零售市場份額,像這樣大規模的藥品降價,對于這類品牌藥店來說來是首次。相關鏈接:白塔寺藥店:是以經營道地中藥飲片、高檔參茸滋補品、以及全國名、特、優、新中西藥品和家庭醫療器械為主的大型綜合藥店,是一家具有135年經營歷史的老字號藥店,曾先后獲得過“消費者滿意商店”、“全國文明示范藥店”、“貨真價實”品牌體系成員店、“北京市首批優秀特色店”、“優良藥房”等稱號。白塔寺藥店秉承金象復星醫藥股份有限公司“大眾安康是金象復星經營的園點”的經營理念,堅持以優質齊全的品種,專業化的藥學服務,舒適的購物環境為消費者提供全方位的服務。 樣本分詞效果:2006/年/月/18/日起/金象/藥房/白塔寺/藥店/1036/品種/藥品/價格/進行/下調/西藥/405/種/中成藥/442/種/保健品/189/種/遴選/藥品/平均/降幅/15%/~/25%/品種/降幅/達到/50%/降價/品種/大部分/治療/常見病/多發病/慢性病/藥品/國產/藥/包括/外資/類/藥品/合資/類/藥品/同仁堂/科技/發展/股份/生產/感冒/清熱/顆粒/原來/每盒/14/元降/每盒/9.8/元/降幅/30%/中/美/上海/施貴寶/制藥/有限公司/生產/日夜/百服/嚀/原來/每盒/13.9/元降/每盒/11/元/降幅/20.86%/石藥集團/中諾/藥業/生產/復方/降壓片/原來/每盒/5.2/元降/每盒/元/降幅/42.31%/輝瑞/制藥/有限公司/生產/絡活/喜片/原來/每盒/47.5/元/降/每盒/40.8/元/降幅/14.11%/北京/大恒/倍生/制藥廠/生產/復方/丹參片/原來/每盒/8.8/元降/每盒/元/降幅/77.27%/德國/諾華/制藥/生產/新/山地/明/原來/每盒/629.5/元降/每盒/560/元/降幅/11.04%/北京/金象/藥房/醫藥/連鎖/有限公司/董事長/介紹/藥品/降價/企業/強調/保證/藥品/質量/節約/成本/降低/企業/管理/內耗/前提/實施/積極/探討/細化/管理/合理/使用/藥學/人員/提高/工作效率/縮減/成本/利于/消費者/一種/嘗試/履行/企業/致力/藥業/護佑/安康/使命/一種/體現/實事求是/地說/藥品/價格/調整/降低/藥店/利潤/空間/金象/企業/經營/實際/狀況/仔細/斟酌/推出/利于/民/銷售價格/這一/嘗試/金象/視/實際/情況/門店/藥品/價格/進行/調整/了解/金象/北京市/幾家/本土/品牌/藥店/占據/六成/左右/北京/藥品/零售/市場份額/大規模/藥品/降價/類/品牌/藥店/首次/相關/鏈接/白塔寺/藥店/經營/道/中藥飲片/高檔/參茸/滋補品/全國/名/特/優/新/中西/藥品/家庭/醫療器械/為主/大型/綜合/藥店/一家/具有/135/年/經營/歷史/老字號/藥店/先后/獲得/消費者/滿意/商店/全國/文明/示范/藥店/貨真價實/品牌/體系/成員/店/北京市/首批/優秀/特色店/優良/藥房/稱號/白塔寺/藥店/秉承/金象復/星/醫藥/股份/有限公司/大眾/安康/金象復/星/經營/園點/經營/理念/堅持/優質/齊全/品種/專業化/藥學/服務/舒適/購物/環境/消費者/提供/全方位/服務 前十個高頻詞:[('藥品', 12), ('每盒', 12), ('藥店', 9), ('降幅', 8), ('元', 7), ('生產', 6), ('原來', 6), ('金象', 5), ('經營', 5), ('元降', 5)]總結
- 上一篇: QPI extend
- 下一篇: 装饰模式理解