总奖金15万,双赛道同名消歧挑战赛报名进行中
2020鏈想家計算科技大賽,由區(qū)塊鏈教育新媒體平臺鏈想家主辦,biendata競賽平臺承辦。旨在培養(yǎng)高質(zhì)量的高新技術(shù)人才隊伍,實現(xiàn)區(qū)塊鏈技術(shù)與人工智能技術(shù)對不同行業(yè)的賦能改造。
?
鏈想家致力于將本次大賽打造為中國參賽人數(shù)最多的前沿科技比賽之一,并以大賽為抓手,進一步宣傳貫徹國家創(chuàng)新驅(qū)動戰(zhàn)略,深化人工智能和區(qū)塊鏈技術(shù)在各行各業(yè)的應(yīng)用改革,推動社會各界對高新技術(shù)人才培養(yǎng)的重視,切實提高大眾的創(chuàng)新精神、創(chuàng)業(yè)意識、創(chuàng)新創(chuàng)業(yè)能力。助推傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型發(fā)展,促進各行各業(yè)形成新業(yè)態(tài)、新經(jīng)濟、新模式。
目前,人工智能已經(jīng)成為國家科技發(fā)展戰(zhàn)略的核心。此外,當(dāng)前充滿風(fēng)波的國際局勢也對我國自主開發(fā)人工智能技術(shù)提出了新的要求。特別地,如果能自動地對國內(nèi)外大量的科技信息分析工作,有十分重大的意義。在此背景下,鏈想家聯(lián)合 AMiner 共同發(fā)布了同名消歧挑戰(zhàn)賽,旨在讓機器對科技領(lǐng)域的人才進行自動化地歸類和消歧。本次比賽截止日期為2020年12月30日,總獎金15萬元。
?復(fù)制打開以下鏈接參賽(推薦在電腦端打開):
賽道一:https://www.biendata.xyz/competition/chaindream_nd_task1/
賽道二:https://www.biendata.xyz/competition/chaindream_nd_task2/
賽題描述
Task
?
本次比賽有兩個基礎(chǔ)的論文消歧任務(wù),分別為冷啟動消歧和論文增量消歧義。
?
I. 論文的冷啟動消歧
Name Disambiguation from Scratch
任務(wù)描述:給定一堆擁有同名作者的論文,要求返回一組論文聚類,使得一個聚類內(nèi)部的論文都是一個人的,不同聚類間的論文不屬于一個人。最終目的是識別出哪些同名作者的論文屬于同一個人。
?
參考方法:解決這一問題的常用思路就是通過聚類算法,即通過提取論文特征,定義聚類相似度度量,從而將一堆論文聚成的幾類論文,使得聚類內(nèi)部論文盡可能相似,而類間論文有較大不同,最終可以將每一類論文看成屬于同一個人的論文。根據(jù)用于聚類的特征和衡量論文相似度標(biāo)準(zhǔn)的不同,可大概分為如下幾個思路:
基于人為定義規(guī)則(rule-based)的方法,手動定義一些聚類標(biāo)準(zhǔn),比如對應(yīng)作者機構(gòu)一樣的論文聚成一類等,從而獲得聚類結(jié)果;
基于監(jiān)督信息的聚類,利用給出的訓(xùn)練數(shù)據(jù)集,構(gòu)建二分類樣本去訓(xùn)練一個衡量論文之間距離的模型,然后根據(jù)模型去計算測試集中論文的相似度,以此為基礎(chǔ)進行聚類;
基于原子聚類的方法[1],大致思路是首先用較強的規(guī)則進行聚類,例如:倆篇論文如果有倆個以上的共同作者,那么這倆篇論文屬于同一類,這樣可以保證聚類內(nèi)部的準(zhǔn)確率,隨后用弱規(guī)則將先前的聚類合并,從而提高召回率;
基于圖聚類的方法[2],利用論文之間的結(jié)構(gòu)以及屬性關(guān)系去構(gòu)建統(tǒng)一的概率圖,隨后通過算法估計了聚類人數(shù)K,最后使用圖聚類算法去解決問題;
基于向量的方法[3],有些工作考慮了傳統(tǒng)特征的局限性,所以利用了低維語義空間的向量表示方法,通過將論文映射成低維空間的向量表示,在此之上定義論文之間相似度的度量方式,基于向量使用聚類方法。
評估方法:使用Macro Pairwise-F1作為模型評估度量
II. 論文的增量消歧
Continuous Name Disambiguation
任務(wù)描述:線上系統(tǒng)每天會新增大量的論文,如何準(zhǔn)確快速的將論文分配到系統(tǒng)中已有作者檔案,這是線上學(xué)術(shù)系統(tǒng)最亟待解決的問題。所以問題抽象定義為:給定一批新增論文以及系統(tǒng)已有的作者論文集,最終目的是把新增論文分配到正確的作者檔案中。
?
參考方法:增量消歧任務(wù)與冷啟動消歧的任務(wù)不同,它是基于有一定作者檔案的基礎(chǔ),對新增論文進行分配,同時還要兼顧論文的NIL問題,即論文不能分配給任意一個已有的檔案,可分為分類和排序打分兩種思路來解決:
基于分類的方法:容易直接想到的方法就是將這個問題轉(zhuǎn)化成為二分類任務(wù),將已有的作者檔案與新增論文進行比較,提取合作者,單位機構(gòu)或者會議期刊之間相似度的特征。隨后利用分類器進行0/1分類;
基于排序打分的方法[4]:將這個任務(wù)轉(zhuǎn)化成信息檢索中的RANKING問題, 對于每篇待分配的論文,首先挑選對應(yīng)的candidate author然后同樣的去提取交互特征,最后用learning to rank框架去訓(xùn)練一個打分模型,最后對于每個candidate author進行打分,然后按照得分高低排序,選擇top-1的author;
解決NIL的問題:在獲取最有可能分配的author profile后,還需要進一步判斷是否真正將paper分配過去,即NIL的問題。在實體鏈接領(lǐng)域中,可以在分類或排序打分模型的基礎(chǔ)上,額外再提取整體candidate authors得分的分布特征,去訓(xùn)練一個判別模型進?一步判斷NIL的情形。[4]中總結(jié)并提出了一些解決NIL的方法。
?
評估方法:使用WeightedF1 作為模型評估度量。
參考文獻
[1]. Wang et al. Name Disambiguation Using Atomic Clusters. Web-Age Information Management. WAIM '08.
[2]. Jie et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE’12).
[3]. Zhang et al. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).
[4]. Chen et al. CONNA: Addressing Name Disambiguation on The Fly. IEEE Transaction on Knowledge and Data Engineering (TKDE’20)
上賽季獲獎方案
Review
論文的冷啟動消歧
Name Disambiguation from Scratch
?
第一名:基于網(wǎng)絡(luò)嵌入和語義表征的作者名消歧 https://www.biendata.xyz/models/detail/3637/
?
第二名:基于LGB二分類與層次聚類的同名消歧冷啟動
https://www.biendata.xyz/models/category/3643
論文的增量消歧
Continuous Name Disambiguation
第一名:FIND:基于特征工程的增量同名消歧方法
https://www.biendata.xyz/models/category/3650/
?
第二名:基于XGBoost的人名消歧方法的研究
https://www.biendata.xyz/models/category/3678/
?
第三名:基于SVM的同名作者消歧
https://www.biendata.xyz/models/category/3625/
?
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
?
總結(jié)
以上是生活随笔為你收集整理的总奖金15万,双赛道同名消歧挑战赛报名进行中的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提高方面级情感分析的性能:一种结合词汇图
- 下一篇: 土耳其的货币是什么 目前危机不断发酵