再见,Microsoft Academic——你好,开放式研究基础设施?
【翻譯于 Aaron Tay、Alberto Martín-Martín 和 Sven E. Hug 的《Goodbye, Microsoft Academic – Hello, open research infrastructure?》】
今年晚些時候宣布關閉 Microsoft Academic 可能使研究界基本上不為所動,盡管它的消亡對使用該服務的大量數(shù)據(jù)庫的人具有重大影響。在這里,Aaron Tay、Alberto Martín-Martín和Sven E. Hug ? 討論了 Microsoft Academic 與競爭對手的不同之處,以及 Microsoft 退出學術元數(shù)據(jù)以開發(fā)開放式研究基礎設施的潛在后果。
近日,微軟宣布將關閉僅次于 Google Scholar 的第二大學術搜索引擎 Microsoft Academic。盡管全球科學界對這一宣布幾乎沒有注意到,但許多計算機科學家、元研究人員、圖書館員和初創(chuàng)企業(yè)都感到震驚,因為他們一直在圍繞數(shù)據(jù)庫構建信息服務生態(tài)系統(tǒng)。
Microsoft Academic 并不是該公司首次嘗試構建文獻搜索工具。作為較早的項目,Microsoft Academic Search 從 2009 年運作到 2012 年一直陷入年久失修,直到 2016 年正式重新啟動為 Microsoft Academic。這表明 Microsoft 從未打算進入學術元數(shù)據(jù)業(yè)務。相反,正如雷德蒙德研究人員最近的一篇文章所暗示的那樣,這家科技巨頭一直在使用學術交流數(shù)據(jù)作為大數(shù)據(jù)和人工智能 (AI) 技術的試驗場。有傳言稱,微軟可能會提供經(jīng)過測試的技術來從 Office 365 中的文檔中獲取知識。
一個復雜的搜索引擎
雖然 Web of Science 和 Scopus 等傳統(tǒng)引文索引主要基于選定的期刊,但 Microsoft Academic 的優(yōu)勢在于它抓取網(wǎng)絡的方式以及使用人工智能技術填充其數(shù)據(jù)庫。因此,Microsoft Academic 在索引新出版物方面的速度更快并且包含比 Web of Science Core Collection(7900 萬)和 Scopus(7500 萬)多得多的記錄(1.94 億,無專利)也就不足為奇了。Microsoft Academic 還涵蓋范圍更廣的出版物類型(預印本、工作論文、論文等),并在傳統(tǒng)引文數(shù)據(jù)庫通常無法很好涵蓋的研究領域大放異彩,例如計算機科學、社會科學和人文科學。
“Microsoft Academic 的優(yōu)勢在于它抓取網(wǎng)絡的方式以及使用 AI 技術填充其數(shù)據(jù)庫的方式。”
Microsoft Academic 相對于 Google Scholar 的一個主要優(yōu)勢是搜索界面,目前它仍然提供充足的過濾和排序選項,并提供各種排名(主題、期刊、機構等)以及摘要統(tǒng)計的可視化。盡管該搜索引擎是免費的,并且為學者提供了一個集成的社交網(wǎng)絡,但它從未受到研究人員的歡迎,從網(wǎng)絡流量統(tǒng)計中可以看出:
| scholar.google.com | 137.5 |
| semanticscholar.org | 8.9 |
| scopus.com | 5.2 |
| webofknowledge.com | 4.4 |
| academic.microsoft.com | 0.7 |
這種低使用率的主要原因可能是搜索界面本身。它從根本上不同于傳統(tǒng)的學術搜索系統(tǒng),因為它是由人工智能技術驅(qū)動的。具體來說,該界面提供了真正的語義搜索,而不是使用布爾運算符進行通常的關鍵字搜索。或者正如微軟曾經(jīng)解釋的那樣:'微軟學術理解單詞的含義,它不只是將關鍵字與內(nèi)容相匹配。例如,當您鍵入“Microsoft”時,它就知道您指的是該機構,并向您顯示由 Microsoft 附屬研究人員撰寫的出版物。此外,搜索引擎基于超過 700,000 個“研究領域”(即主題或概念),這些領域由算法創(chuàng)建并不斷擴展,而其他搜索系統(tǒng)使用固定的、人工策劃的和不太復雜的分類。此外,搜索引擎采用兩個獨特的指標,顯著性和估計引用數(shù),這對于大多數(shù)用戶來說難以理解和解釋。總體而言,這些人工智能驅(qū)動的功能創(chuàng)造了一種與用戶習慣截然不同的搜索體驗。由此看來,所采用的人工智能技術對用戶來說要么過于前衛(wèi),要么不夠成熟。
大量免費數(shù)據(jù)
雖然搜索引擎尚未被科學界所接受,但其底層數(shù)據(jù) Microsoft Academic Graph 卻吸引了眾多用戶。有幾個原因。數(shù)據(jù)集龐大,結構良好且詳細。它的使用是免費的,而且訪問很方便(API 或完整的數(shù)據(jù)轉儲)。相比之下,直接訪問谷歌學術數(shù)據(jù)是不可能的,只能在非常有限的范圍內(nèi)從谷歌學術中抓取數(shù)據(jù)。盡管微軟專門采用人工智能技術來收集和整理數(shù)據(jù),但數(shù)據(jù)質(zhì)量相當準確,適合對學術交流的某些方面進行大規(guī)模分析。
“Microsoft Academic 使研究人員和商業(yè)企業(yè)能夠以較低的成本使用全面的元數(shù)據(jù)”
通過這種方式,Microsoft Academic 使研究人員和商業(yè)企業(yè)能夠以較低的成本使用全面的元數(shù)據(jù)。在微軟提供其數(shù)據(jù)庫之前,只有少數(shù)研究所(富裕國家)的研究人員可以訪問大型數(shù)據(jù)集,而擁有此類數(shù)據(jù)的公司大多將其用于自己的產(chǎn)品。自 2015 年以來,介紹 Microsoft Academic Graph的論文已被引用超過 500 次,這表明該數(shù)據(jù)庫在研究中的有用性。該圖還用于許多商業(yè)和非商業(yè)工具和服務(例如,VOSviewer、Unsub、Litmaps、scite)。甚至還有一些書目數(shù)據(jù)庫和搜索引擎可以利用 Microsoft Academic 的豐富資源(例如Semantic Sc??holar、The Lens、Scinapse)。
盡管 Microsoft Academic 的關閉不會以同樣的方式影響這些工具和服務的性能,但很明顯,寶貴的資源將在今年年底丟失。它是否以及如何被取代還有待觀察。最便宜的解決方案是向 Microsoft 支付繼續(xù)使用數(shù)據(jù)庫的費用,這當然需要 Microsoft 愿意讓它繼續(xù)運行。每年更新Microsoft Academic Graph 內(nèi)容的云計算成本大致相當于一位經(jīng)驗豐富的數(shù)據(jù)科學家的薪水。數(shù)據(jù)庫的一位開發(fā)人員最近估計將 Microsoft Academic 維持在當前的技術水平所花費的費用大約是中型大學為傳統(tǒng)引文索引中的數(shù)據(jù)支付的費用的三分之一。
走向開放的研究基礎設施?
Microsoft Academic 展示了由 AI 技術收集和整理的公開可用元數(shù)據(jù)的價值。它為研究人員和商業(yè)企業(yè)提供了沃土。當然,還有其他開放的元數(shù)據(jù)源。例如,Crossref 包含超過 1.25 億條記錄,其中 4800 萬條具有開放引用,這要歸功于 I4OC 和合作出版商。但是,Crossref 較小,包含的詳細數(shù)據(jù)較少,整理的一致性較差,并且僅索引具有 DOI(數(shù)字對象標識符)的出版物。
最后,微軟的項目證明,僅僅公開數(shù)據(jù)庫是不夠的——數(shù)據(jù)庫還必須是可持續(xù)的。如果我們想要開放和可持續(xù)的數(shù)據(jù)庫,那么投入更多時間和資源來構建它們可能是一個好主意。首先,我們可以支持那些計劃構建開源和免費使用Microsoft Academic 替代品的人。
注: 本文為作者觀點,不代表社會科學影響博客的立場,也不代表倫敦經(jīng)濟學院的立場。 如果您對在下面發(fā)表評論有任何疑慮,請查看我們的 評論政策。
總結
以上是生活随笔為你收集整理的再见,Microsoft Academic——你好,开放式研究基础设施?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PS知识总结
- 下一篇: 腾讯T2大牛亲自教你!5214页PDF的