科大讯飞2020完整事件抽取系统(bert+数据集)
科大訊飛2020完整事件抽取系統(bert+數據集)
事件抽取將非結構化文本中的事件信息展現為結構化形式,在輿情監測、文本摘要、自 動問答、事理圖譜自動構建等領域有著重要應用。在真實新聞中,由于文本中可能存在句式 復雜,主被動轉換,多事件主客體共享等難點,因此“事件抽取”是一項極具挑戰的抽取任 務。
本事任務旨在從通用新聞文本中抽取事件觸發詞、事件論元以及事件屬性。在傳統的事件定義中,事件由事件觸發詞( Trigger) 和描述事件結構的元素 (Argument)構成。事件觸發詞標識著事件的發生。事件論元為事件主體(Subject)、客體(Object)、時間(Time)、地點(Location)等,是表達事件重要信息的載體。
事件屬性包括事件極性(Polarity)、時態(Tense),是衡量事件是否真實發生的重要依據。通過極性,事件分為肯定、否定、可能事件。通過時態,事件分為過去發生的事件、現在正 在發生的事件、將要發生的事件以及其他無法確定時態的事件。
本賽事任務一為初賽任務,任務二為復賽任務,在任務一的基礎上增加了事件屬性識別。為 了模擬真實場景,數據中包含了非實際發生的事件。
任務一:事件觸發詞及論元抽取
該任務旨在從文本中抽取標識事件發生的觸發詞和論元,觸發詞往往為動詞和名詞。觸發詞 對應的事件論元,主要為主體、客體、時間、地點,其中主體為必備論元。
示例 1:
文本:北京時間 3 月 27 日晚上 7 點 15 分,英國首相鮑里斯約翰遜確診感染了新冠肺炎。
任務二:事件屬性抽取
該任務旨在從文本中抽取表達事件發生狀態的屬性,包括極性、時態。極性分為:肯定、否
定、可能;時態分為:過去、現在、將來、其他。
示例 1:
文本:中國駐俄羅斯大使張漢暉 4 月 7 日向媒體回應稱,經向俄有關強力部門了解,目前
在俄沒有一起中國公民遭到拘留或受到俄強力部門限制的案例。
抽取結果:
示例 4:
文本:看守政府總理邁赫迪打算驅逐約 5300 名美國士兵。
抽取結果:
事件抽取系統,包含觸發詞(trigger),事件論元(role),事件屬性(attribution)的抽取。基于 pytorch 的 pipeline 解決方案。
主要思路
將任務分割為觸發詞抽取,論元抽取,屬性抽取。具體而言是論元和屬性的抽取結果依賴于觸發詞,因此只有一步誤差傳播。因 time loc 并非每個句子中都存在,并且分布較為稀疏,因此將 time & loc 與 sub & obj 的抽取分開(role1 提取 sub & obj;role2 提取 time & loc)
模型先進行觸發詞提取,由于復賽數據集的特殊性,模型限制抽取的事件僅有一個,如果抽取出多個觸發詞,選擇 logits 最大的 trigger 作為該句子的觸發詞,如果沒有抽取觸發詞,篩選整個句子的 logits,取 argmax 來獲取觸發詞;
然后根據觸發詞抽取模型抽取的觸發詞,分別輸入到 role1 & role2 & attribution 模型中,進行后序的論元提取和屬性分類;四種模型都是基于 Roberta-wwm 進行實驗,加入了不同的特征。
最后將識別的結果進行整合,得到提交文件。
代碼運行教程? 獲取:
關注微信公眾號 datayx ?然后回復??事件抽取? 即可獲取。
AI項目體驗地址 https://loveai.tech
閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學習案例實戰
基于40萬表格數據集TableBank,用MaskRCNN做表格檢測
《基于深度學習的自然語言處理》中/英PDF
Deep Learning 中文版初版-周志華團隊
【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!
《美團機器學習實踐》_美團算法團隊.pdf
《深度學習入門:基于Python的理論與實現》高清中文PDF+源碼
特征提取與圖像處理(第二版).pdf
python就業班學習視頻,從入門到實戰項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學習之pytorch》pdf+附書源碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰:基于Scikit-Learn和TensorFlow》
《Python數據分析與挖掘實戰》PDF+完整源碼
汽車行業完整知識圖譜項目實戰視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!
《神經網絡與深度學習》最新2018版中英PDF+源碼
將機器學習模型部署為REST API
FashionAI服裝屬性標簽圖像識別Top1-5方案分享
重要開源!CNN-RNN-CTC 實現手寫漢字識別
yolo3 檢測出圖像中的不規則漢字
同樣是機器學習算法工程師,你的面試為什么過不了?
前海征信大數據算法:風險概率預測
【Keras】完整實現‘交通標志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現醫學圖像識別分類工程項目
特征工程(一)
特征工程(二) :文本數據的展開、過濾和分塊
特征工程(三):特征縮放,從詞袋到 TF-IDF
特征工程(四): 類別特征
特征工程(五): PCA 降維
特征工程(六): 非線性特征提取和模型堆疊
特征工程(七):圖像特征提取和深度學習
如何利用全新的決策樹集成級聯結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過
全球AI挑戰-場景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
總結
以上是生活随笔為你收集整理的科大讯飞2020完整事件抽取系统(bert+数据集)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 注意力机制-深度学习中的注意力机制+注意
- 下一篇: 50个数据可视化最有价值的图表(附完整P