来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...
來自 DBLP、ArXiv、STM 等多家學術出版機構和平臺的數據表明,在過去 20 年間,計算機科學、物理學、統計學等研究領域的出版物總量都有大幅增加。像 CVPR、AAAI 等有關人工智能等新興領域的頂級會議,每年的論文接受量也已經高達上千篇。面對雨后春筍一樣涌現的學術出版物和千上萬篇學術論文,任何一名研究者都不可能了解所有新領域,即使這一領域和自己的研究方向近似。
如果有一種工具,可以把一篇論文的源頭梳理清楚,就能極大地減少無效檢索的時間,快速了解一個新領域的發展脈絡。
在以往的研究中,計算機領域的相關學者提出了很多數據挖掘技術,比如概念抽取、主題演變、算法圖譜等。但是,這些數據挖掘技術更多是著眼于提煉學術文獻中的關鍵術語信息,研究它們之間的關系與變化,卻很少關注學術出版物本身較深層次的內容以及關聯關系。
近日,AMiner?團隊的碩士生殷達等人提出一種新方法——論文溯源樹(https://mrt.aminer.cn/),通過刻畫學術文獻的發展演變脈絡,來幫助科研人員了解前沿論文是如何演變而來的。相關研究論文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。
?“MRT 溯源樹”是一個通過構建論文演變圖幫助學者研究論文發展的工具,目標是研究論文中各種思路方法的演變過程。
以知名 NLP 研究論文“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding”為例,BERT 對于預訓練模型、文本向量、序列編碼等方法的使用來源于語言模型這一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等內容則可以追溯到機器翻譯領域中的 MaskGAN、Attention is all you need 等文章。
圖:BERT 論文溯源(部分)
為了生成關于 BERT 的“論文溯源樹”,研究團隊采用了檢索,閱讀,構圖,推理等若干步驟。
MRT 溯源樹技術原理
首先,算法將目標論文放入諸如 SemanticScholar 或是 AMiner 這樣的開放數據源中進行檢索,獲取其論文標題、摘要及其引用信息,再根據引用信息擴展出多層引用網絡,并采用 PageRank 算法進行排序,篩選與目標論文較為相關的文獻。
然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本編碼以及圖特征編碼方法對檢索得到的論文網絡進行編碼計算,為每一篇論文生成表示向量。其中,TF-IDF 可以提取論文中表層的關鍵詞信息;Sentence-BERT 則能夠捕獲到論文中較深層的語義信息;ProNE 則將文本信息放在論文引用網絡中,用譜傳播的方式將鄰居節點論文之間的關聯性融入論文表示向量中,從而最終得到兼顧文本信息和引用結構信息的論文向量。
另外,在此基礎上,算法采用了 Kernel K-means 等方法,根據生成的論文向量進行聚類排列,連接成帶有多條“溯源路徑”的樹狀結構;同時,針對每一類(每一條溯源路徑)中的論文,算法還采用了自動化標注算法為其生成標簽來概括描述這些論文的主題。Kernel K-means 算法中的核函數除了用來進行聚類外,還被應用于計算論文及溯源路徑對于目標論文演變的重要性。
到這里,一棵論文溯源樹便就出生了。
圖|論文溯源樹(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)
最后,在線上用戶交互過程中,為了方便用戶在閱讀溯源樹過程中可以快速定位當前感興趣的相關論文,算法還應用強化學習設計出在線推薦模塊,根據用戶的閱讀點擊事件動態推薦相關論文。
此外,研究團隊還針對上述各個步驟設計了一系列相關實驗進行驗證。考慮到由于缺少標注數據而難以直接進行評估的問題,研究團隊還采用了若干種間接的衡量方法從多個角度對提出方法的有效性進行驗證評估,并與基線算法進行比較,最終驗證了算法的優越性。
目前,該算法已集成在 AMiner 學術信息挖掘系統中(https://mrt.aminer.cn/)。
(來源:https://mrt.aminer.cn/)
在 AMiner 網站上,你可以通過點擊想要生成溯源樹的論文右側的按鈕來提交生成申請,在排隊過后系統會自動搜集相關引用論文并計算生成溯源樹。
快來點擊原文嘗試一下吧~
總結
以上是生活随笔為你收集整理的来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时到账是什么意思
- 下一篇: 一般纳税人的成本票和进项票有什么本质区别