基于携程游记的出行领域顺承事件图谱项目
EvolutionaryEventGraph
項目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W攜程出行攻略的順承事件抽取與事件圖譜構建.
項目來源
目前,以謂詞性短語作為事件表示的方法方興未艾,針對特定領域,構建起特定領域的順承事件圖譜,可以支持事件推理,基于事件的意圖識別與推薦等多項運用.
本項目將從出行領域展開進行實驗.
項目構成
本項目由兩個部分的組成,具體包括語料的獲取以及基于語料的事件挖掘兩個部分,具體項目目錄包括:
news_spider:基于scrapy的游記采集腳本
event_graph:基于依存句法與順承模式的順承事件抽取腳
image:游記順承事件圖譜效果圖
一 出行領域語料的獲取
語料來源:攜程出行攻略
時間范圍:2018年7月14日之前
采集方式:使用scrapy編寫爬蟲腳本進行抓取
采集規模:共采集505767篇,量級50W
采集腳本目錄:news_spider/travelspider
語料舉例:
107330 一路向南——第二篇相逢南通(自駕游) - 游記攻略【攜程攻略】107331 彩云之南—云上的蜜月之旅 - 麗江游記攻略【攜程攻略】107332 甘肅游記之瑪曲郎木寺 - 碌曲游記攻略【攜程攻略】107333 拍客白沙行 - 舟山游記攻略【攜程攻略】107334 九華山-沐浴在佛恩下的XXX - 九華山游記攻略【攜程攻略】107335 墾丁夏季活動 - 墾丁游記攻略【攜程攻略】107336 行走在臺灣(向隅版)---世外桃源之我們的家(九份民宿) - 九份游記攻略【攜程攻略】107337 衛賽節馬來西亞行 - 馬六甲州游記攻略【攜程攻略】107338 藍天下的嘉峪關 - 嘉峪關游記攻略【攜程攻略】107339 人生一定要登一次雪山---都日峰 - 四川游記攻略【攜程攻略】107340 八月,青海湖不遠 - 海北游記攻略【攜程攻略】107341 #冬季北京# 帝都極冷天去首富的酒店避避寒 - 北京游記攻略【攜程攻略】107342 圣地西藏 - 青海湖游記攻略【攜程攻略】107343 孩子,媽媽想讓你見識更多的繁華世界 - 深圳游記攻略【攜程攻略】107344 頂級奢華,舍我其誰! - 澳門游記攻略【攜程攻略】107345 旅行、不需要走遠!美景就在身邊 - 江門游記攻略【攜程攻略】107346 安安靜靜,不言不語都是好風景 - 廈門游記攻略【攜程攻略】107347 邂逅則天故里 行走美麗利州 體驗師帶你看中國女兒節 - 廣元游記攻略【攜程攻略】107348 臺灣,可以這樣玩--15日環島自由行全記錄 - 臺北游記攻略【攜程攻略】107349 讓我記憶深刻的廈門--詳細版 - 廈門游記攻略【攜程攻略】107350 上海地鐵站 - 上海游記攻略【攜程攻略】107351 逃離霧霾,帶著“馬拉多納”去騰沖 - 騰沖游記攻略【攜程攻略】107352 在我心上用力地開一 - 四川游記攻略【攜程攻略】107353 冬季到鄱陽湖邊的余干縣看鳥,多張美圖記錄環湖游全過程 - 余干游記攻略【攜程攻略】107354 2014.十一沈陽,本溪老邊溝,楓葉大道,丹東,不走重復路,古跡,景色5日窮游 - 沈陽游記攻略【攜程攻略】107355 庫不齊老牛灣之戶外行走 - 庫布齊沙漠游記攻略【攜程攻略】二 基于出行語料的順承事件圖譜構建
1, 順承事件的抽取
event_extract.py, 思想步驟如下:
2, 順承事件圖譜的展示
10)使用VIS插件進行順承關系圖譜構建與展示, event_graph.py
11)由于VIS作為一個封裝的JS庫,因此生成的順承圖譜在項目中暫時設置到500,見travel_event_graph.html
三 順承關系圖譜效果
1) 總體圖譜樣式
以500個順承事件, 進行順承事件圖譜展示,結果是一張事件網絡,這是一個大的順承關系圖譜,由眾多小子圖譜構成
2) 去麗江子圖譜
該子圖譜圍繞"去麗江旅游"這一出行事件為核心形成的事件群:
3) 飛機路線子圖譜
該子圖譜顯示了選擇飛機進行出行形成的事件序列
4) 火車路線子圖譜
該子圖譜顯示了選擇火車進行出行形成的事件序列
5) 訂酒店事件圖譜
該子圖譜描述了一個"預定酒店不愉快事件",從預定到失望到總結,在這條順承事件鏈表現出來
6) 做飯事件圖譜
該子圖譜表示了一個"做飯"場景下的順承事件,感覺也很有意思
總結
Question?
send mail to lhy_in_blcu@126.com
項目地址:https://github.com/liuhuanyong/SequentialEventExtration
If any question about the project or me ,see https://liuhuanyong.github.io/
總結
以上是生活随笔為你收集整理的基于携程游记的出行领域顺承事件图谱项目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CRISP-DM:数据挖掘标准流程
- 下一篇: DGL_图的打印