AAAI 2021 | 幻灯片中文字的重要性预测赛亚军DeepBlueAI团队技术分享
?PaperWeekly 原創(chuàng) ·?作者|羅志鵬
單位|深蘭北京AI研發(fā)中心
?
2 月 2-9 日,AAAI 2021 于線上隆重召開。AAAI(美國人工智能協(xié)會)作為人工智能領域的主要學術組織之一,其主辦的年會被列為國際人工智能領域的 A 類頂級會議。
來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團隊在 Predicting Emphasis in Presentation Slides『預測幻燈片中的重點』挑戰(zhàn)賽中斬獲亞軍, 同時也斬獲了『首字母縮寫詞消歧』冠軍, 本文帶來『幻燈片中文字的重要性預測』挑戰(zhàn)賽技術分享。
?
賽題介紹
本賽題是來自 AAAI-21 內(nèi)容創(chuàng)作和設計研討會(CAD21)的一個任務。這項任務的目的是設計用于自動選擇強調(diào)詞的方法,即在演示文稿幻燈片文本中選擇要強調(diào)的候選詞,以實現(xiàn)創(chuàng)作中的自動設計幫助。
希望參與者利用內(nèi)容中的語義特征,以便預測哪些片段適合突出顯示并為幻燈片創(chuàng)建者提供設計幫助。考慮下圖所示的幻燈片。強調(diào)可以引導觀眾將注意力集中在幾個單詞上。觀眾不必閱讀整個幻燈片,而只能閱讀強調(diào)的部分,并保持對演講者的關注。
比賽任務
本文介紹了我們在 AAAI-21 的比賽任務:Predicting Emphasis in Presentation Slides。在這個任務中,我們要預測幻燈片中每個單詞的被強調(diào)程度,每個詞給出一個強調(diào)值,可以視為回歸任務或者二分類任務。
輸入:來自 PPT 內(nèi)容構成的一個句子 d = {w1, w2, ..., wn}。
輸出:預測其中每一個詞匯對應的強調(diào)值 e = {e1, e2, ..., en}。
?
評測指標
Matchm:對于測試集合 中的每個實例 X ,我們根據(jù)真實標簽選擇 m?(1,5,10)個單詞的集合 ,其概率最大。類似地,我們根據(jù)預測的概率為每個 m 選擇一個預測集 。
我們將指標 Matchm 定義如下:
團隊成績
最終榜單:
比賽難點
(1)沒有提供來自用戶或設計其余部分(例如背景圖像)的上下文。
(2)單詞強調(diào)模式和作者的領域相關度較大。
由于存在這兩個難點,難以判斷標注結果和實際的偏差,無法對模型的偏差點做進一步分析,無法對訓練結果做有針對的調(diào)整,只能嘗試在數(shù)據(jù)集上擬合。
數(shù)據(jù)描述
比賽數(shù)據(jù)來自對 PPT 內(nèi)容的標注,表 1 中顯示了 AAAI-CAD21 共享任務中提供的數(shù)據(jù)集的數(shù)據(jù)集的統(tǒng)計信息。每個訓練實例都是一張完整的 PPT,其中包含所有的詞。此外,數(shù)據(jù)中還提供了幻燈片中的逐句劃分。每個詞有 8 個標注者的分別標注的結果。
數(shù)據(jù)集使用 BIO 標記方案進行了注釋,其中每個注釋者都將詞標注為強調(diào)(B 或 I,B 代表加粗,I 代表斜體)或非強調(diào)(O)。此外,將每個詞被標注為強調(diào)的頻率作為其最終分數(shù)。標注方案和加權概率計算見表 3。有關任務和數(shù)據(jù)創(chuàng)建的更多信息,見 Shirani et al. (2021) [5]。
_ | Total Slides | Total Sentences | Total Tokens |
訓練集 | 1241 | 8849 | 96934 |
驗證集 | 180 | 1175 | 12822 |
測試集 | 355 | 2569 | 28108 |
▲ 表1:訓練集、驗證集、測試集描述
_ | 最小長度 | 最大長度 | 平均長度 |
訓練集 | 1241 | 8849 | 96934 |
驗證集 | 180 | 1175 | 12822 |
測試集 | 355 | 2569 | 28108 |
▲?表2:數(shù)據(jù)集句子長度
▲?表3:數(shù)據(jù)集標注案例
數(shù)據(jù)處理和特征工程
結合模型和數(shù)據(jù)集的特點,我們構造了如下特征:
(1)首字母是否大寫。如當強調(diào)詞為專業(yè)名詞、縮寫時,首字母通常為大寫。
(2)詞匯是否被切分。使用預訓練 transformers 模型時,詞表是固定的,在當前任務中,因為每個詞都需要預測概率,未登陸詞不能忽略,將未登陸詞切分為 subword,subword 的平均分作為最終預測分。
(3)切分后 subword 的位置。未登陸詞切分為 subword 后,位于第幾個位置。對于未登錄詞,不同的詞可能由相同的 subword 組成,subword 在不同的位置具有不同的含義。
(4)詞性。被強調(diào)詞中名次動詞出現(xiàn)次數(shù)較多,顯然是一個很有用的特征。我們使用 nltk 工具的詞性標注結果。
模型概述
建模:
(1)確定模型擬合目標:當前任務可建模為 8 個標簽的多標簽分類任務或者一個概率擬合任務,在嘗試將其作為多標簽分類任務后,發(fā)現(xiàn)其效果不好,而直接擬合其概率值效果較好。
(2)確定模型結構。分析完數(shù)據(jù)特點,確定其數(shù)據(jù)輸入與常規(guī)的 nlp 任務一致,決定使用常規(guī)的 BERT+MLP 的結構。
(3)損失函數(shù):擬合概率可嘗試 BCELoss 和 KLLoss。
最終模型確定為:使用 BERT [1] 和 Roberta [2] 做編碼,得到每個詞對應的特征向量,與手動構造的特征向量做連接,過兩層全連接,Sigmoid 激活得到其概率值。模型選擇 BERT 預訓練+微調(diào)的常規(guī)做法。損失函數(shù)使用 KLLoss 和 BCELoss,模型結構如圖 1 :
▲ 圖1
?
模型訓練:
?
(1)預訓練模型選擇。通常來說,比賽中一般不必考慮性能問題,直接選擇目前效果最好預訓練模型即可,還要考慮預訓練模型所用語料和當前語料的聯(lián)系。有條件的最好在當前語料上重新做自適應的預訓練。我們沒有重新做預訓練,嘗試使用了 scibert,bert-large,robert 和 ernie 等。
(2)偽標簽。該方法的主旨思想其實很簡單,首先,在標簽數(shù)據(jù)上訓練模型,然后使用經(jīng)過訓練的模型來預測無標簽數(shù)據(jù)的標簽,從而創(chuàng)建偽標簽。此外,將標簽數(shù)據(jù)和新生成的偽標簽數(shù)據(jù)結合起來作為新的訓練數(shù)據(jù)。具體做法為:將測試集使用在訓練集上訓練好的模型做預測,將預測結果加入訓練集中,重新訓練模型。
(3)對抗學習。它在訓練中構造了一些對抗樣本加入到原數(shù)據(jù)集中,希望增強模型對對抗樣本的魯棒性。我們在模型訓練的時候加入了對抗學習,所使用的對抗學習方法是 Fast Gradient Method(FGM)[3]。
(4)多模型融合。使用 k 這交叉驗證和對抗訓練等不同的參數(shù)和技巧訓練得到許多不同的模型,最后將所有模型的預測值取平均作為最終的預測值。
(5)未登陸詞處理。由于預訓練模型的詞表示固定的,難免出現(xiàn)未登錄詞,而當前任務需要對每個詞預測概率,未登錄詞不可忽略。對于未登陸詞,訓練時:將其切分為 subword,并將當前詞的分數(shù)作為每個 subword 的分數(shù)。在預測時:對所有 subword 的分數(shù)取平均作為最終預測分數(shù)。
具體使用的預訓練模型:scibert,bert-large, ernie 三個。在三個模型上都做了訓練,最終將所有模型結果做了融合。最終得分 0.519,排名第二。
總結與討論
目前 NLP 比賽基本都是 BERT 加微調(diào)的模式。選擇一個預訓練模型,確定模型需要擬合的目標,參考目前最佳的幾個方案建模,對比各個方案的分數(shù)。選擇一個效果較好的模型進一步優(yōu)化,加入多折交叉驗證、對抗訓練、模型融合等技巧。一般都能取得不錯的效果。
例如在本次比賽中,我們首先嘗試將任務建模為多分類,將 8 個標注者的標注結果作為多標簽分類問題去擬合 8 個標簽,發(fā)現(xiàn)效果不好,轉而嘗試直接擬合概率值,效果不錯,基本確定模型結構。在此基礎上選擇 scibert, bert-large, ernie 等預訓練模型,使用對抗訓練、模型融合等提升分數(shù),嘗試 KLLoss 和 BCELoss,最終取得第二。
?
團隊負責人介紹
羅志鵬,深蘭科技集團技術副總裁/深延科技 CTO,畢業(yè)于北京大學,曾任職于微軟亞太研發(fā)集團。現(xiàn)主要負責公司 AI 平臺相關研發(fā)工作,帶領團隊已在 CVPR、ICCV、ECCV、KDD、NeurIPS、SIGIR 等數(shù)十個世界頂級會議挑戰(zhàn)賽中獲得近三十項冠軍,以一作在 KDD、WWW 等國際頂會上發(fā)表論文,具有多年跨領域的人工智能研究和實戰(zhàn)經(jīng)驗。
參考文獻
1. Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
2. Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.
3. Miyato, T., Dai, A.M., & Goodfellow, I.J. (2016). Virtual Adversarial Training for Semi-Supervised Text Classification.?ArXiv, abs/1605.07725.
4. Zhang, Z., Han, X., Liu, Z., Jiang, X., Sun, M., & Liu, Q. (2019). ERNIE: Enhanced Language Representation with Informative Entities. ACL.
5. Shirani, A.; Tran, G.; Trinh, H.; Dernoncourt, F.; Lipka, N.; Asente, P.; Echevarria, J.; and Solorio, T. 2021. Learning to Emphasize: Dataset and Shared Task Models for Selecting Emphasis in Presentation Slides. In Proceedings of CAD21 workshop at the Thirty-fifth AAAI Conference on Artificial Intelligence (AAAI-21).
?
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的AAAI 2021 | 幻灯片中文字的重要性预测赛亚军DeepBlueAI团队技术分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。