WSDM Cup 2020 引用意图识别赛道冠军解决方案(附答辩视频、PPT和代码)
新發(fā)現(xiàn)、新理論的研究論文發(fā)表數(shù)量呈指數(shù)型增長,并且論文被引用量(H-index)通常被學(xué)術(shù)界衡量論文的影響力貢獻程度。然而,隨著學(xué)術(shù)界的競爭越來越激烈,部分期刊中出現(xiàn)了一種“強制引用”的情況,也是就論文作者需要引用該期刊的相關(guān)文章,以提高期刊的影響因子。這些行為是對任何科學(xué)家和技術(shù)人員所要求的最高誠信的冒犯,并且如果任其發(fā)展,可能會破壞公眾的信任并阻礙科學(xué)技術(shù)的未來發(fā)展。該競賽是該系列競賽中的第一場競賽,探討了網(wǎng)絡(luò)搜索和數(shù)據(jù)挖掘技術(shù)在多大程度上可以用來區(qū)分多余的引文和真實的引用識別。賽題詳解可參考:https://biendata.com/competition/wsdm2020/
冠軍方案
作者:應(yīng)承軒
學(xué)校:大連理工大學(xué)
個人網(wǎng)站:https://ying.cx/
研究方向:信息檢索
答辯視頻:
解決方案:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval
答辯視頻、PPT、論文:在「AI算法之心」公眾號后臺回復(fù)“「WSDM2020」”
摘要
對語義檢索任務(wù)的最新研究表明,像BERT這樣的預(yù)訓(xùn)練語言模型具有令人印象深刻的重排序性能。在重排序過程中,將使用(查詢,文檔)對來提供經(jīng)過微調(diào)的語言模型,并且整個時間復(fù)雜度與查詢大小和召回集大小均成正比。在本文中,我們基于置信度得分描述了一種簡單而有效的提前停止策略。在我們的實驗中,這種策略可以避免多達30%的不必要的推理計算成本,而不會犧牲太多的排名精度。
代碼:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval
「Our team dlutycx ranked first on the unleak track.」
方案
我們的方案主要分為三個主要階段:
數(shù)據(jù)清洗:數(shù)據(jù)丟失的文檔將被刪除,與此任務(wù)無關(guān)的文本也將被刪除。
召回階段:通過無監(jiān)督方式(例如BM25或文檔嵌入相似性)從整個候選文檔數(shù)據(jù)庫中檢索設(shè)置給定問題的候選集。
排序階段:這些文檔中的每一個都通過一種計算精準(zhǔn)度更高的方法進行評分和排名。
數(shù)據(jù)清洗
在清理步驟中,我們僅刪除丟失的數(shù)據(jù)。然后,我們清除與主題不直接相關(guān)的文本。具體而言,我們刪除引文中每個句子不包含("「##」").
召回階段
在召回步驟中,我們使用Okapi BM25來衡量查詢和文檔之間的詞匯相似度。計算公式如下:
在驗證集上進行幾次實驗后,我們設(shè)置和。
排序階段
在重排序步驟中,我們使用預(yù)先訓(xùn)練的BioBERT獲得相似性評分。然后,采用交叉熵?fù)p失來微調(diào)BioBERT:
image其中是相關(guān)段落的索引集,是使用BM25檢索的前20個文檔中不相關(guān)段落的索引集。為了平衡正負(fù)比率,我們對正文檔19x進行了過度采樣。
對BioBERT進行微調(diào)后,在重新排序時,我們將此模型用作固定評分器。在以下算法中,我們描述了廣泛使用的常規(guī)重排策略:如算法1所示,常規(guī)重排序策略是簡單地遍歷召回集中的每個文檔。正如我們在圖2中可以看到的,真實文檔不是均勻分布的。它們聚集在最高位置。為了解決這個問題,我們設(shè)計了一種早期停止策略。如算法2所示,當(dāng)重新排名(經(jīng)過微調(diào)的BERT模型)顯示高置信度時,我們可以認(rèn)為此文檔是最相關(guān)的文檔。
如圖3所示,最高分的分布與圖2不同。如果在重排序過程中采用算法2,則如果不相關(guān)的文件的得分大于正數(shù),則我們可能會誤將不相關(guān)的文件檢索為正確文件。誤報文件高于閾值。為了緩解這種問題,我們提出了一種自適應(yīng)的提前停止重新排序策略,如算法3所示。我們相信基于經(jīng)驗的批處理大小????atch size可以減少假陽性文檔,并獲得增益(排行榜的指標(biāo))。
更多詳細細節(jié)可以參考原始論文的解決方案:An Adaptive Early Stopping Strategy for Query-based Passage Re-ranking
http://www.wsdm-conference.org/2020/wsdm_cup_reports/Task1_dlutycx.pdf
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,請回復(fù)“知識星球”喜歡文章,點個在看總結(jié)
以上是生活随笔為你收集整理的WSDM Cup 2020 引用意图识别赛道冠军解决方案(附答辩视频、PPT和代码)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 科普:目标检测Anchor是什么?怎么科
- 下一篇: 我是如何提高工作和研究效率的?分享给大家