新闻事件报道重要性判定项目
EventLine
項目地址:https://github.com/liuhuanyong/ImportantEventExtracto
An exploration for Eventline (important news Rank organized by pulic time),針對某一事件話題下的新聞報道集合,通過使用docrank算法,對新聞報道進行重要性識別,并通過新聞報道時間挑選出時間線上重要新聞。
項目介紹
目前,網絡上針對某一特定熱門事件會產生大量的報道,這些報道會隨著該事件的發展而發生內容上的變化,這個具體表現在時間軸上對應新聞的差異性。因此,這就產生了關于特定事件報道的三個問題:
1、同質的新聞報道有很多,如何對浩如煙海的新聞報道進行代表性新聞抽取
2、如何檢測這種內容上的變化,如何表示這種內容,這個涉及到內容的表示問題
3、如何對這種變化的內容進行有效組織和表示
本項目將對這三個問題進行嘗試探索
項目構成
1、輸入:關于一個特定事件的文本集合,關于文本集合的采集,可以參照https://github.com/liuhuanyong/EventMonitor 中特定事件文本語料庫的構建
2、中間模型:融合文章用詞特征的DOC-RANK文本重要性排序模型
3、輸出:1)important_doc:根據重要性值大小排序的新聞報道結果。
2)timelines:以新聞報道發布時間為時間軸的關鍵新聞報道集合
其中關于輸出:
1)important_doc:從相關性的角度解決了第一個問題
2)timelines:提供了問題3的一個基本解決方法(還相對較low)
實驗
1、輸入:以’中興事件’為例,共采集到562篇新聞,舉例如下:
''' 2018-05-11 08:50@聯發科:目前沒有發布不能向中興出售芯片的相關聲明.txt 2018-04-28 07:57:47@中興通信發布一季報:如無制裁成績本應如此亮眼.txt 2018-05-24 08:08:37@高管調整、巨額罰款,中興解決方案代價不菲.txt 2018-04-18 09:02:01@受傷害的不止中興,還有美國芯片廠!直刺中國集成電路的脆弱內“芯”.txt 2018-05-26 08:08:16@中興小鮮4手機(金屬機身香檳金指紋)京東556元(贈品).txt 2018-05-14 10:41@中興事件戲劇性轉折這三個信號意味深長.txt '''2、中間模型:
算法步驟: 1)新聞報道文本分詞,去除停用詞,并統計文本詞頻,設定文本最頻繁詞頻閾值。 2)基于共詞算法,計算新聞報道之間的相關性。相關性的方法如下: '''計算文章之間的相關性''' def calculate_weight(self, word_dict1, word_dict2):score = 0interwords = set(list(word_dict1.keys())).intersection(set(list(word_dict2.keys())))for word in interwords:score += round(math.tanh(word_dict1.get(word)/word_dict2.get(word)))return score 3)將2)得到的結果,結合textrank算法,以新聞報道為一個graph中的一個節點,通過迭代至收斂,最終得到一個穩定的節點權重。 4)對3)得到的結果,按照權重值(對應新聞報道的重要性)由大到小排序,輸出至important_doc.txt中 5)對3)得到的結果,通過對同一日期下的新聞報道重要性進行排序,輸出至timelines.txt中3、輸出important_doc舉例
以下是對562篇中興事件新聞報道中重要性值TOP10
'''2018-04-29 09:47:00@中興一石激千浪中國公司擔憂的還有另一個“定時炸彈”.txt 1.0 2018-04-21 12:32@10分鐘的新聞發布會,中興透露出一件大事情.txt 0.9930902016486721 2018-04-23 15:38:30@青年力:由中興開始的2018中美芯片戰.txt 0.9866428387088916 2018-04-18 10:43:54@中興遭美國制裁,芯片這道門檻必須要跨過去.txt 0.844683540929596 2018-04-18 @探究中興遭禁售令究竟該如何“拆招”?.txt 0.8196911028266617 2018-04-18 07:41:53@數十類別受波及,中興遭禁售令.txt 0.8177922162226666 2018-04-19 09:09@中興渡劫:滅頂之災與吃力不討好的芯片行業.txt 0.8133495070021921 2018-04-17 10:09@一文讀懂中興遭遇“禁售令”:臺灣聯發科也被卷入.txt 0.7833879219280031 2018-04-17 21:43:54@中興被禁,華為、海康告急!中美貿易戰直刺中國“缺芯”軟肋.txt 0.7696595419937585 2018-04-18 23:38:27@中興被禁后的“自救與他救”.txt 0.7531341115076232 '''4、輸出的timeline舉例
從標題上來看,中興事件共經歷制裁->轉機->解除反思三個階段,具體如下:
…中興遭到美國制裁…
'''20160406 2016-04-06 12:44:20@中興換帥風波背后,美國:怪我咯.txt 0.5503254129214843 20180417 2018-04-17 10:09@一文讀懂中興遭遇“禁售令”:臺灣聯發科也被卷入.txt 0.7833879219280031 20180418 2018-04-18 10:43:54@中興遭美國制裁,芯片這道門檻必須要跨過去.txt 0.844683540929596 20180419 2018-04-19 09:09@中興渡劫:滅頂之災與吃力不討好的芯片行業.txt 0.8133495070021921 20180420 2018-04-20 15:28@中興被制裁:前歐美市場員工的一些理解和認識.txt 0.6831555731401355 '''…中興遭到美國制裁事件出現轉機…
'''20180514 2018-05-14 07:54@中美大國利益博弈:中興被美制裁或現重大轉機!.txt 0.6903169641746736 20180515 2018-05-15 09:52:30@中興事件迎戲劇性轉折特朗普放過中興的背后有什么條件.txt 0.6593342519411062 20180516 2018-05-16 18:20@鳳凰涅中興中長期價值將被重估.txt 0.7504873311728248 20180517 2018-05-17 17:30@再談:中興事件的受益方和受害者們.txt 0.6626479492925067 20180518 2018-05-18 15:16:17@中興事件或遇轉機,專家提示:"缺芯"問題仍需警惕!.txt 0.6293746010076395 '''…中興事件解決的討論與反思…
'''20180524 2018-05-24 18:26@禁令解除脈絡日漸清晰中興回歸或有所期.txt 0.6831951907962789 20180525 2018-05-25 14:57@要如何才能真正“拯救”中興?.txt 0.65721685858832 20180526 2018-05-26 19:47:02@【金焱看美國】中興和解,特朗普圍堵中國的勝算和敗算.txt 0.6926229637369306 20180528 2018-05-28 16:45@中美貿易戰“停火”,但中興真的可以涅槃重生嗎?.txt 0.5194249388979124 '''總結及下一步的工作:
1、本項目中的文本重要性算法只是一個角度,關于重要性的評估還可以有其他方法。
2、從輸出的timeline來看,能粗略地看到一個結果,但如何能夠真正快速的發現,實際上還有的做。
3、重點解決項目所述的第二個問題
項目地址:https://github.com/liuhuanyong/ImportantEventExtracto
If any question about the project or me ,see https://liuhuanyong.github.io/
總結
以上是生活随笔為你收集整理的新闻事件报道重要性判定项目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: SOA基础