ICDM 2020 TOP3方案
寫在前面的話
大家好,我是煉丹筆記的小編,作為一名煉丹俠,這次為大家帶來的分享是我們在2020 ICDM Knowledge Graph Contest中的獲獎方案和在ICDM2020 Workshop中的內容。本文基于BERT做了Finetune,引入了一種全新的視角來重新審視關系行為原因提取任務,并提出了一種新的序列標記框架,而不是單獨提取行為類型和行為原因。
賽題背景
在內容廣告、社會化聆聽等許多業務場景中,提取消費者一些行為的背后原因是關注的焦點。以內容廣告為例,如今的廣告主并不滿足于品牌或產品的直接曝光,他們更喜歡通過產品功能嵌入內容,潛移默化地激發消費者主動將自己的品牌或產品與任意的消費行為聯系起來。為此,明確地提取消費者行為發生的原因成為構建這樣一個滿足廣告商需求的系統的重要技術。
在NLP相關競賽中,提取行為原因是具有預定義模式的,這些原因通常被表示為一個詞或一個結構化元組。此外,這些比賽旨在提取預定義事件類型的所有事件。與以往的比賽相比,2020 ICDM Knowledge Graph Contest : Specification 評測競賽有以下新穎之處:
賽題數據
由行業解決方案專家挑選500篇Instagram文章,以確保語言的正式性、多樣性和對實際應用程序的知識深度。在本次比賽中,我們關注五種事件類型:消費者關注、消費者興趣、消費者需求、消費者購買和消費者使用。這500篇文章將被貼上標簽,作為訓練集。將有一個單獨的在線測試集。數據示例如下:
評測方法
采用F1評測。
Workshop獲獎方案Top3
方案摘要:
消費者行為原因提取是一項旨在從文本中提取特定行為背后潛在原因的任務,由于其廣泛的應用,近年來受到了廣泛的關注。ICDM 2020大會設立了一個評估競賽,旨在提取特定主題(品牌或產品)的行為及其原因。在本課題中,我們主要研究如何構建一個端到端的模型,同時提取多個行為類型和行為原因。為此,我們引入了一種全新的視角來重新審視關系行為原因提取任務,并提出了一種新的序列標記框架,而不是單獨提取行為類型和行為原因。實驗表明,我們的框架優于基線方法,即使它的編碼模塊使用一個初始化的預訓練的BERT編碼器,顯示了新的標簽框架的力量。在這次比賽中,我們隊獲得了第一階段排行榜的第一名。
方案簡介
ICDM2020知識圖表競賽是一項與領先的ICDM會議共同舉辦的競賽式活動。本文描述了我們在消費者行為原因提取任務中的解決方案,并在第一階段排行榜中獲得第一名。消費者行為的原因提取[1],[10]是許多業務場景(如內容廣告、社交監聽等)關注的焦點。以內容廣告為例。如今的廣告主并不滿足于品牌或產品的直接曝光,他們更喜歡通過產品功能嵌入內容,潛移默化地激發消費者主動將自己的品牌或產品與任意的消費行為聯系起來。
為此,明確地提取消費者行為的原因成為構建這樣一個滿足廣告商需求的系統的重要技術。消費者行為原因提取(CECE)任務旨在從給定品牌或產品的文本中提取消費者行為和行為原因。傳統的方法使用類似于抽取機器閱讀理解(MRC)的模型結構[7]。大多數相關工作[6]都是分別提取行為類型和行為原因,沒有考慮它們之間的依賴關系。在本次競賽中,我們引入了一種全新的視角來重新審視關系行為原因提取任務,并提出了一種新的序列標記框架,而不是單獨提取行為類型和行為原因。實驗表明,即使編碼模塊使用隨機初始化的BERT[2]編碼器,我們的框架仍優于基線方法,顯示了新標記框架的強大功能 。
1 數據層面
為了保證數據的高質量性,我們移除了文本中的ID。例如:“68771,Love doing makeup on all ages”處理成“"Love doing makeup on all ages”。
2 模型層面
為了以端到端的方式提取消費者行為原因,我們的模型主要由兩部分組成:BERT編碼器和序列標簽解碼器。
1) BERT Encoder:
首先,我們將文本Text和標簽brand/produt轉換成[CLS] Brand/Product [SEP] Text [SEP] 的形式,作為模型的輸入{x1,x2,...xn}。
然后,我們使用預訓練的BERT模型[2]對內容信息進行編碼。編碼模塊從xj語句中提取特征信息zj,并將其輸入到后續的標記模塊中。這里,我們簡要回顧了基于多層雙向變換器的語言表示模型BERT。它的目的是通過共同調節每個單詞的左右語境來學習深層表征,
最近,它在許多下游任務中被證明是非常有效的[3]。具體地說,它由N個相同的Transformer blocks組成。我們將Transformer blocks表示為Trans(x),其中x代表輸入向量。具體操作如下:
上式中,S為輸入句中子詞索引的一個one-hot向量矩陣,Ws為子詞嵌入矩陣,Wp為位置嵌入矩陣,其中p表示輸入序列中的位置索引,hl為隱藏狀態向量,即第L層輸入句的上下文表示,N為變換器個數方塊。注意在我們的工作中,輸入是一個單一的文本句子,而不是句子對,因此Eq中沒有考慮原始BERT論文中描述的分段嵌入。關于Transformer的結構請參考論文[4]。
2)Sequence Tagging Decoder:
在2020年的ICDM競賽中,該任務增加了對多種行為類型的判斷,這很難用閱讀理解框架來解決。競賽的目標是為每個文本text和 brand/product提取多種行為類型和行為原因。為此,我們提出了一種序列標記解碼器,可以同時提取多個行為類型和行為原因。
首先,我們為成對的輸入句子構造標記,每個標記都有一個標記符,如下所示:
B_{consumer interest}
I_{consumer interest} ...
用這種方式,我們就可以使用softmax函數獨立地對每個標簽進行解碼,得到所有可能的行為類型和行為原因對的集合。
在序列標注任務的啟發下,考慮鄰域中標簽之間的相關性,并聯合解碼給定輸入句子的最佳標簽鏈是有益的。
因此,我們使用一個條件隨機場(CRF)[5]聯合建模標簽序列,而不是單獨解碼每個標簽。
形式上,我們使用z={z1,z2,····,zn}來表示一個通用的輸入序列,其中zi是第i個單詞的輸入向量。y={y1,y2,·····,yn}表示z的一個通用標簽序列。y(z)表示z的一組可能的標簽序列。序列CRF的概率模型定義了一系列條件概率p(y | z;W,b)在給定z的所有可能的標簽序列y上,其形式如下:
對于CRF訓練,我們使用最大條件似然估計。對于訓練集{zi,yi},似然的對數(即對數似然)由以下公式給出:
最大似然訓練選擇參數,使對數似然L(W,b)最大化。解碼是以最大的條件概率搜索標簽序列y*。
對于序列CRF模型(只考慮兩個連續標簽之間的相互作用),采用Viterbi[11]算法可以有效地解決訓練和解碼問題。
3. 模型集成
在模型集成[9]階段,我們采用了一種簡單有效的方法,得到了1.30%的提升(如圖2所示)。我們采用了兩步走的方法來得到最終的結果。首先確定文本邊界交叉驗證結果的串行化,預測結果的字符位置為1,其余為0。然后我們將所有的CV結果疊加到相應的位置,并通過閾值將小于N的位置更改為0。
4. 模型效果
WorkShop其他獲獎方案
在這次競賽中,來日本的選手使用GAN的做法完成了本次任務,整體思路為是通過GAN的生成方式增加訓練樣本,同時對GAN生成的數據標注為Fake,然后將GAN的生成和BERT層一起送入Bi-LSTM層后在原有Attention,Intention,Need ,Purchase,Use的基礎上,增加Fake標簽進行預測。
參考文獻
[1] Marco Rospocher, et al. ”Building event-centric knowledge graphs from news.” Journal of Web Semantics, Volumes 37–38, 2016, pp. 132-151.
[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[3] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.
[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[5] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstmcnns-crf[J]. arXiv preprint arXiv:1603.01354, 2016.
[6] Xia R, Ding Z. Emotion-cause pair extraction: a new task to emotion analysis in texts[J]. arXiv preprint arXiv:1906.01267, 2019.
[7] Li X, Feng J, Meng Y, et al. A unified mrc framework for named entity recognition[J]. arXiv preprint arXiv:1910.11476, 2019.
[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991, 2015.
[9] Dietterich T G. Ensemble methods in machine learning[C]//International workshop on multiple classifier systems. Springer, Berlin, Heidelberg, 2000: 1-15.
[10] Gooding R Z, Kinicki A J. Interpreting event causes: The complementary role of categorization and attribution processes[J]. Journal of Management Studies, 1995, 32(1): 1-22.
[11] Viterbi A J. A personal history of the Viterbi algorithm[J]. IEEE Signal Processing Magazine, 2006, 23(4): 120-142.
總結
以上是生活随笔為你收集整理的ICDM 2020 TOP3方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 序列化推荐系统总结:Sequential
- 下一篇: 数据算法竞赛:ICDM 2020 TOP