【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的挑战
5.信息抽取技術的未來發展趨勢和面臨的挑戰
5.1?NER技術的未來發展趨勢和面臨的挑戰
論文《?Survey on Deep Learning for Named Entity Recognition》總結了NER技術面臨的挑戰和未來發展方向。隨著建模語言的進步和實際應用的需求,NER會得到研究人員更多的關注。另一方面,NER通常被視為下游應用程序的預處理組件。這意味著特定的NER任務由下游應用程序的需求定義,例如,命名實體的類型以及是否需要檢測嵌套實體。以下是NER研究的以下進一步探索方向。
1.細粒度NER和邊界檢測。
雖然許多現有研究(《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》)都集中在一般領域的粗粒度NER上,但論文期望在特定領域對細粒度NER進行更多研究,以支持各種實際的word應用(《Software-specific named entity recognition in software engineering social content》)。細粒度NER面臨的挑戰是命名實體類型的顯著增加,以及允許一個命名實體具有多個命名實體類型所帶來的復雜性。這需要重新訪問常見的NER方法,其中實體邊界和類型同時被檢測,例如,通過使用B-I-E-S-(實體類型)和O作為解碼標簽。值得考慮的是,將命名實體邊界檢測定義為一項專用任務,以檢測命名實體邊界,同時忽略命名實體類型。邊界檢測和命名實體類型分類的解耦實現了邊界檢測的通用和魯棒的解決方案,這些解決方案可以在不同領域共享,并為命名實體類型分類提供了專用的領域特定方法。正確的實體邊界還能有效地緩解實體鏈接到知識庫中的錯誤傳播。已經有一些研究,認為實體邊界檢測是NER中的中間步驟(即子任務)。據論文所知,目前還沒有專門針對實體邊界檢測的工作來提供一個魯棒的識別器。論文期待著在未來這一研究方向的突破。
2.聯合NER和實體鏈接。
實體鏈接(EL)也稱為命名實體規范化或消歧,旨在參考知識庫為文本中提到的實體分配唯一身份,例如通用領域的維基百科和生物醫學領域的統一醫學語言系統(UMLS)。大多數現有工作將NER和EL單獨作為流水線(pipeline)設置中的兩個獨立任務來解決。論文認為,成功鏈接的實體(例如,通過知識庫中的相關實體)所攜帶的語義顯著豐富。也就是說,鏈接實體有助于成功檢測實體邊界和正確分類實體類型。值得探索聯合執行NER和EL,甚至實體邊界檢測、實體類型分類和實體鏈接的方法,以便每個子任務都能從其他子任務的部分輸出中受益,并減少流水線(pipeline)設置中不可避免的錯誤傳播。
3.有輔助資源的非正式文本上基于DL的NER
基于非正式文本或用戶生成內容的DL-NER的性能仍然很低。這需要在這方面進行更多的研究。特別是,論文注意到,NER的性能顯著受益于輔助資源的可用性,例如用戶語言中的位置名稱詞典。雖然沒有提供強有力的證據表明,涉及地名詞典,作為額外的特征可以導致NER在通用領域的性能提升,但論文認為輔助資源往往是必要的,以更好地了解用戶生成的內容。問題是如何為用戶生成的內容或特定領域的文本上的NER任務獲取匹配的輔助資源,以及如何有效地將輔助資源合并到基于深度學習的NER中。
4.基于DL的NER的可伸縮性。
使神經網絡模型更具可伸縮性仍然是一個挑戰。此外,當數據量增加時,仍然需要優化參數指數增長的解決方案(《A review on deep learning for?recommender?systems:?challenges and remedies》)。一些基于DL的NER模型以巨大的計算能力為代價取得了良好的性能。例如,ELMo表示用3×1024維向量表示每個單詞,模型在32個GPU上訓練了5周(《Contextual string embeddings for sequence labeling》)。Google BERT表示在64個云TPU上進行訓練。然而,如果終端用戶無法訪問強大的計算資源,他們就無法對這些模型進行微調。開發平衡模型復雜性和可伸縮性的方法將是一個有前途的方向。另一方面,模型壓縮和剪枝技術也可以用來減少模型學習所需的空間和計算時間。
5.NER的深度遷移學習。
許多以實體為中心的應用程序求助于現成的NER系統來識別命名實體。然而,由于語言特征的差異以及注釋的差異,在一個數據集上訓練的模型可能無法在其他文本上很好地工作。盡管有一些研究將深度遷移學習應用于NER,但這個問題尚未得到充分探討。未來應致力于如何通過探索以下研究問題,有效地將知識從一個領域轉移到另一個領域:(a)開發一個能夠跨不同領域工作的魯棒識別器;(b) 探索NER任務中的zero-shot, one-shot 和?few-shot learning;(c) 提供解決跨域設置中的域不匹配和標簽不匹配的解決方案。
6.一個易于使用的工具包,用于基于DL的NER。
最近,R?der等人開發了GERBIL(《GERBIL - benchmarking named entity recognition and linking consistently》),它為研究人員、最終用戶和開發人員提供了易于使用的界面,用于對實體注釋工具進行基準測試,目的是確保可重復和可架構的實驗。然而,它不涉及最新的基于DL的技術。Ott介紹了FAIRSEQ(《fairseq: A fast, extensible toolkit for sequence modeling》),這是一個快速、可擴展的序列建模工具包,特別是用于機器翻譯和文本描述。Dernoncourt等人實現了一個名為NeuroNER的框架(《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》),它只依賴于循環神經網絡的一個變體。近年來,許多深度學習框架(例如TensorFlow、PyTorch和Keras)被設計為通過高級編程接口為設計、訓練和驗證深度神經網絡提供構建模塊。論文設想,一個易于使用的NER工具包可以指導開發人員使用一些標準化模塊來完成它:數據處理、輸入表示、上下文編碼器、標記解碼器和有效性度量。論文相信,專家和非專家都可以從這些工具包中受益。
7.數據標注。
受監督的NER系統,包括基于深度學習的NER,在訓練中需要大量帶標注的數據。然而,數據標注非常耗時和昂貴。對于許多資源匱乏的語言和特定領域來說,這是一個巨大的挑戰,因為需要相關領域專家來執行數據標注的任務。
由于語言的模糊性,標注的質量和一致性都是主要問題。例如,同一個命名實體可以用不同的類型進行注釋。例如,““Baltimore defeated the Yankees”一句中的“Baltimore”,在MUC-7中被標記為位置,在CoNLL03中被標記為組織。在CoNLL03和ACE數據集中,“Empire State ”和“Empire State Building”都被標記為位置,導致實體邊界混亂。由于數據標注的不一致性,即使兩個數據集中的文檔來自同一個域,在一個數據集中訓練的模型在另一個數據集中也可能無法很好地工作。
為了使數據注釋更加復雜,Katiyar和Cardie(《Nested named entity recognition revisited》)報告說嵌套實體相當常見:GENIA語料庫中17%的實體嵌入到另一個實體中;在ACE語料庫中,30%的句子包含嵌套實體。需要開發適用于嵌套實體和細粒度實體的通用注釋方案,其中一個命名實體可以被分配多種類型。
8.非正式文本和沒見過的實體。
正式文件(如新聞文章)的數據集報告了不錯的結果。然而,在用戶生成的文本上,最佳準確率分數略高于40%。非正式文本(如推文、評論、用戶論壇)的NER比正式文本更具挑戰性,因為其簡短并有噪聲。許多用戶生成的文本也是特定領域的。在許多應用場景中,NER系統必須處理用戶生成的文本,例如電子商務和銀行中的客戶支持。評估NER系統的魯棒性和有效性的另一個有趣維度是,它能夠在新出現的文本中識別不尋常的、以前沒見過的實體。
5.2實體關系抽取技術的未來發展趨勢和面臨的挑戰
在北京林業大學的論文《實體關系抽取方法研究綜述》中提出:目前,實體關系抽取技術日漸成熟,但依然需要研究人員投入大量精力進行不斷探索,通過對現有實體關系抽取研究工作進行總結,在以后的研究中可以從5個方面展開相關的研究。
1.從二元關系抽取到多元關系抽取的轉化。
當前的關系抽取系統主要集中在2個實體之間的二元關系抽取,但并非所有的關系都是二元的,如有些關系實例需要考慮時間和地點等信息,所以會考慮更多的論元。目前已有相關論文提出針對多元關系抽取的方法,但該方法與二元關系抽取模型相比,在準確率和召回率上仍有較大的差距。如何根據上下文信息,識別跨越句子的多元實體關系,提高關系抽取的準確率和智能化,這促使研究者不斷投入更多的精力。
2.開放領域的實體關系抽取的深入研究。
目前的研究工作大多面向特定的關系類型或者特定領域,而使用特定的語料庫,很難做到其他領域的自動遷移。雖然,一些研究者針對開放領域的關系抽取進行了研究,提出了一系列的方法用于實體關系抽取,然而這類方法和特定領域相比仍有一定的差距。如何不斷提高系統的準確率、可移植性以及可擴展性,這都激勵著研究人員投入更多的精力和時間,促進開放領域的實體關系抽取的發展。
3.遠程監督關系抽取方法得到不斷改進。
目前,由于遠程監督的方法仍然存在錯誤標簽和誤差傳播2個主要問題,研究者多是基于這些問題對深度學習的關系抽取模型加以改進。為了避免產生過多的錯誤標簽,人們主要采用多示例、注意力機制的方法等方法減少噪音數據。目前已有相關方法融合增強學習和遠程監督方法的優點,不斷地減少錯誤標簽,進而降低負類數據對關系抽取模型的影響。針對誤差傳播的問題,研究者多是對句子的語義信息進行深入挖掘,而對句子語法信息卻少有涉及。如何有效地解決遠程監督產生的錯誤標簽和誤差傳播,如何有效地融合語法和語義信息,這些問題將激勵著研究者不斷改進相關算法,不斷提高深度學習方法的性能。
4.深度學習有監督方法的性能提升。
近年來,越來越多的研究人員關注于聯合學習和基于圖結構的抽取方法。聯合學習將命名實體識別和關系抽取作為一個任務,減少了錯誤信息的積累和傳播,也減少了冗余信息對模型的影響。而針對關系重疊和實體間潛在特征等問題,基于圖結構的抽取方法提供了一些新的思路。然而這2種方法的性能還需進一步改進,不斷促進信息抽取領域的發展。
5.工業級實體關系抽取系統的繼續研發。
關系抽取現已被廣泛應用于智能搜索、智能問答、個性化推薦、內容分發、權限管理,人力資源管理等領域。通過對學術研究和市場需求進行深入地融合,不斷提高實體關系抽取的可靠性、置信度、執行效率等,促進關系抽取模型的性能進一步得到提升,為人們的生活提供更多便利。
5.3事件抽取技術的未來發展趨勢和面臨的挑戰
在文本挖掘中,事件提取是一項重要且具有挑戰性的任務,它主要從描述事件的相關文本中學習事件的結構化表示。事件提取主要分為兩個子任務:事件檢測和參數提取。事件抽取的核心是識別文本中與事件相關的詞,并將其分類。基于深度學習模型的事件提取方法自動提取特征,避免了手工設計特征的繁瑣工作。事件提取任務被構造為一個端到端系統,使用具有豐富語言特征的詞向量作為輸入,以減少底層NLP工具造成的錯誤。以前的方法側重于研究有效特征,以獲取候選觸發器、候選參數的詞匯、句法和語義信息。此外,他們還探討了觸發器和與同一觸發器相關的多個實體之間的依賴關系,以及與同一實體相關的多個觸發器之間的關系。根據事件提取的特點和目前的研究現狀,論文總結了以下技術挑戰。
事件抽取語料庫面臨的挑戰
1.事件提取數據集構建。
事件提取任務復雜,現有的預訓練模型缺乏對事件提取任務的學習。現有的事件提取數據集只有少量的標記數據,手工標注事件提取數據集的時間成本較高。因此,構建大規模事件提取數據集或設計自動構建事件提取數據集也是未來的研究趨勢。
2.新的數據集。
事件提取的數據集很小。深度學習結合外部資源,構建大規模數據集,取得了良好的效果。由于標記數據集的構建困難,且數據集規模較小,如何更好地利用深度學習,借助外部資源有效地提取事件,也是一個迫切的研究方向。
3.事件提取模式。
事件提取方法可分為封閉域事件提取方法和開放域事件提取方法。沒有模式的事件提取方法的效果很難評估,基于模板的事件提取方法需要根據不同的事件類型設計不同的事件模式。因此,如何設計一個通用的事件抽取基于事件特征的模式是克服構建事件抽取數據集和類間知識共享困難的重要手段。
事件提取模型的挑戰
1.依賴學習。
目前,基于BERT的事件提取方法已經成為主流。然而,事件提取不同于訓練前由BERT模型學習的任務。參數提取需要考慮事件參數角色之間的關系,以提取同一事件類型下的不同角色。它需要事件提取模型來學習文本的語法依賴關系。因此,建立事件參數之間的依賴關系是全面、準確地提取每種事件類型的參數亟待解決的問題。
2.端到端學習模型。
與傳統方法相比,基于聯合模型的深度學習方法的優勢在于聯合表示形式。事件提取取決于實體的標簽。因此,本文認為,建立基于深度學習的端到端自主學習模型是一個值得研究和探索的方向,如何設計多任務多聯動的學習模型是一個重大挑戰。
3.多事件提取。
根據事件提取的粒度不同,事件提取可分為句子級事件提取和文檔級事件提取。關于句子級事件抽取的研究已經很多。然而,文檔級事件提取仍處于探索階段,文檔級事件提取更接近實際應用。因此,如何設計文本的多事件抽取方法具有重要的研究意義。
4.域事件提取。
域文本通常包含大量的技術術語,這增加了域事件提取的難度。因此,如何設計有效的方法來理解領域文本中深層的語義信息和上下文對應關系已成為亟待解決的問題。
參考文獻:
- Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for?Named Entity Recognition,”?IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
- 李冬梅,張揚,李東遠,林丹瓊 .實體關系抽取方法研究綜述[J].?計算機研究與發展,2020,57(7)
- Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction:?Approaches and Applications,“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
總結
以上是生活随笔為你收集整理的【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的挑战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HALCON示例程序ball电路板焊点识
- 下一篇: HALCON示例程序board.hdev