[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab:
| Author | Hang Yang, Yubo Chen, Kang Liu, Yang Xiao and Jun Zhao 中科院自動化所 |
| paper | https://www.aclweb.org/anthology/P18-4009 |
本文提出了一個事件抽取框架來從文檔級財經新聞中檢測事件提及并提取事件。目前為止,基于有監督學習的方法在開放數據集上表現最好。這些方法依賴人工標注的數據。但是在金融、醫療等特定領域,由于數據標記過程的成本太高,目前沒有足夠的標記數據。而且現有的方法大多集中在從一個句子中抽取事件,但實際上,一個事件通常由文檔中的多個句子來表達。為了解決這些問題,我們提出了一個文檔級中文金融事件抽取系統(DCFEE),該系統可以自動生成大規模的標記數據并從整個文檔中抽取事件。實驗結果證明了該方法的有效性。
1 引言
金融事件能夠幫助用戶獲得競爭對手的策略,預測股市,做出正確的投資決策。例如,股權凍結事件的發生將對公司產生不良影響,股東應迅速做出正確的決策,以避免損失。
金融事件抽取存在的問題:
- 訓練語料較少:有監督學習需要大量標注語料
- 文檔級事件抽取:當前的事件抽取方法大多都是抽取句子中的事件,但是大多數情況下,一個事件是由多個句子描述的。在金融領域,91%的事件論元是分布在多個句子中的。
為解決這兩個問題,本文做了以下工作:
- 提出了一個DCFEE模型,可以基于自動生成的標注數據從金融領域公告中完成文檔級事件抽取
- 介紹了一種用于事件抽取的數據自動標注方法,并給出了構建中文金融事件數據集的一系列有用的技巧。我們提出了一個基于神經網絡序列標注模型、關鍵事件檢測模型和參數填充策略的文檔級EE系統。實驗結果表明了該方法的有效性
- DCFEE系統已成功構建為一個在線應用程序,可以快速從金融公告中抽取事件信息
2 方法
下圖是DCFEE模型的結構圖,主要分為兩個部分:
1)數據生成:利用遠程監督的方式對整個文檔(文檔級數據)中的事件提及,以及事件提及(句子級數據)的觸發詞和論元進行標注
2)事件抽取系統:包括基于句子級標注數據的句子級事件抽取(SEE)和基于文檔級標注數據的文檔級事件抽取(DEE)
2.1 數據生成
Figure 3: The process of labeled data generation.數據來源:
自動生成數據需要兩種類型的數據資源:包含大量結構化數據信息的金融事件知識庫和包含事件信息的非結構化文本數據。
- 結構化數據來源于財務事件知識庫,包含9種常見的財務事件類型,并以表格形式存儲。這些包含關鍵事件論元的結構化數據是從金融專業人士的公告中總結出來的。以股權質押事件為例,如圖3左側所示,其中關鍵參數包括股東名稱(名稱)、質押機構(ORG)、質押股份數量(NUM)、質押開始日期(BEG)、質押結束日期(End)。
- 非結構化文本數據來源于企業發布的官方公告,以非結構化形式存儲在網絡上,我們從搜狐證券網獲得這些文本數據。
數據生成方法:
標注數據主要包括兩部分:通過標注事件觸發詞和事件論元生成的句子級數據;通過標注文檔級公告中的事件提及生成的文檔級數據。
現在的問題在于如何找到事件觸發詞。與結構化事件知識庫相對應的事件論元和事件提及是從大量的公告中總結出來的。遠程監督的方法在關系抽取和事件抽取上均表現出來其在自動標注數據上的有效性。受遠程監督的啟發,我們假設一個句子包含最多的事件參數,并且在特定觸發器的驅動下,很可能是公告中提到的事件。事件提及中的論元很有可能在事件中扮演相應的角色。對于每一類金融事件,我們構建了一個事件觸發詞典,如股權凍結事件中的凍結事件和股權質押事件中的質押事件。因此,可以通過查詢預先定義的詞典從公告中自動標記觸發詞。通過這些預處理,結構化數據可以映射到公告中的事件論元。因此,我們可以自動識別事件提及并標記事件觸發詞和其中包含的事件論元,以生成句子級別的數據,如圖3底部所示。然后,對于一個文檔,作者定義其中的一個句子作為文檔中的正例,即最能表達文檔中事件的一句話,其他句子均為負例。自此,對一篇文檔的標注就完成了。文檔級數據和句子級數據一起構成了EE系統所需的訓練數據。
技巧:
實際情況下,數據標注存在一些挑戰:財務公告與事件知識庫的對應性;事件論元的模糊性和縮寫性。我們使用了一些技巧來解決這些問題,示例如圖3所示。
- 減少搜索空間:通過檢索關鍵事件論元(如公告的發布日期和股票代碼),可以減少候選公告的搜索空間
- 正則表達式:通過正則表達式可以匹配到更多的事件論元,提高標注數據的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件數據庫中,但是LONCIN在公告中。我們可以通過正則表達式來解決這個問題,并將LONCIN標記為事件論元。
- 規則:一些任務驅動的規則可用于自動標注數據。例如,我們可以通過計算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之間的間隔標記出12 months (Role=Pledging End Date)
2.2 事件抽取
圖4描述了本文提出的事件抽取系統的總體架構,主要包括以下兩個組件:旨在從單個句子中抽取出事件論元和事件觸發詞的句子級事件抽取;旨在基于關鍵事件檢測模型和論元填充策略從整個文檔中提取事件參數的文檔級事件抽取。
2.2.1 句子級事件抽取
我們將句子級事件抽取作為一個序列標注任務,并對基于句子級標注數據的訓練數據進行了描述。句子使用BIO標注模式進行標注。如圖4左側所示,模型使用BiLSTM+CRF進行句子級事件抽取,抽取出句子中的候選論元及觸發詞。
2.2.2 文檔級事件抽取
文檔級事件抽取包括兩部分:旨在從文檔中發現事件提及的關鍵事件檢測模型;用于填充事件論元的論元補足策略。
關鍵事件檢測:
如圖4右側所示,事件檢測的輸入由兩部分組成:一部分是來自句子級事件抽取輸出的事件論元和事件觸發器的表示(藍色),另一部分是當前句子的向量表示(紅色)。將兩部分串聯起來作為CNN的輸入特征。然后將當前句分為兩類:關鍵事件與否,即是否為文檔中的正例。
論元填充策略:
我們通過文檔級事件抽取獲得了包含大部分事件論元的關鍵事件,并通過句子級事件抽取獲得了文檔中每個句子的事件抽取結果。為了獲得完整的時間信息,我們使用論元填充策略,該策略可以自動地從周圍句子中填充缺失的事件論元。如圖4所示,一個完整的質押事件包括事件提及Sn?中的事件論元,以及根據事件提及中填充的事件論元12months。Sn?中的事件論元,以及根據事件提及 中填充的事件論元 12 months。Sn?中的事件論元,以及根據事件提及中填充的事件論元12months。
3 評估
3.1 數據集
我們對四類金融事件進行了實驗:股權凍結事件、股權質押事件、股權回購事件和股權增持事件。共有2976份公告通過自動生成數據進行了標記。我們將標記的數據分為三個子集:訓練集(占公告總數的80%)、開發集(10%)和測試集(10%)。表1顯示了數據集的統計信息。NO.ANN表示可以為每個事件類型自動標注的公告的數量。NO.POS表示正樣本句子(事件提及)的數量,相反,NO.NEG表示負樣本句子的數量。正負樣本句子構成文檔級數據,作為文檔級事件抽取的訓練數據。包含事件觸發詞和一系列事件論元的正樣本句子,標記為SEE的句子級訓練數據。
我們隨機選取了200個樣本(包含862個事件論元)來手動評估自動標注數據的準確率。平均精度見表2,這表明我們的自動標注數據具有較高的質量。
3.2 模型效果
我們使用準確率(P)、召回率(R)和(F1)來評估DCFEE系統。表3顯示了基于模式的方法和DCFEE在提取股權凍結事件時的性能。實驗結果表明,在大多數事件論元提取中,DCFEE的性能優于基于模式的方法。
表4顯示了SEE和DEE在不同事件類型上的P、R、F1。值得注意的是,SEE階段使用的黃金數據是自動生成的數據,DEE階段使用的黃金數據來自金融事件知識庫。實驗結果表明,SEE和DEE的有效性,精度可以接受。
實驗表明,基于遠程監督的方法可以自動生成高質量的標注數據,避免了人工標注。同時驗證了本文提出的DCFEE能夠有效地從文檔級角度中提取事件。
4 應用
DCFEE系統的應用:中文財經文本的在線電子商務服務。它可以幫助金融專業人士從財務公告中快速獲取事件信息。圖5顯示了在線DCFEE系統的截圖。不同顏色的單詞代表不同的事件參數類型,下劃線句子代表文檔中提到的事件。如圖5所示,我們可以從非結構化文本(關于股權凍結的公告)中獲得一個完整的股權凍結事件。
5 相關工作
目前的EE方法主要分為統計方法、基于模式的方法和混合方法。統計方法可以分為兩類:基于特征提取工程的傳統機器學習算法和基于自動特征提取的神經網絡算法。基于模式的方法通常在工業上被使用,因為它可以獲得更高的準確率,但同時具有較低的召回率。為了提高召回率,主要有兩個研究方向:建立相對完整的模式庫和采用半自動的方法建立觸發器詞典。混合事件提取方法將統計方法和基于模式的方法結合在一起。據我們所知,在中文金融領域,還沒有一個系統能夠自動生成標注數據,并從公告中自動提取文檔級事件。
6 結論
本文提出了DCFEE框架,該框架能夠基于自動標注的數據從中國財務公告中提取文檔級事件。實驗結果表明了系統的有效性。我們成功地將系統上線,用戶可以通過該系統從財務公告中快速獲取事件信息。
原文鏈接:https://blog.csdn.net/qq_34838643/article/details/107795253
總結
以上是生活随笔為你收集整理的[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【干货】推荐系统中的机器学习算法与评估实
- 下一篇: 信息检索IR评价中常见的评价指标-MAP