【论文相关】1.1 T 的 arXiv 数据集:170 万篇论文,可以看到下辈子
By 超神經(jīng)
內(nèi)容提要:近日,arXiv 將 170 萬+ 篇的論文,打包成數(shù)據(jù)集,放在了 kaggle 平臺,以后訪問和下載論文,就更方便了。該數(shù)據(jù)集目前大小 1.1 TB 左右,而且之后還會隨著每周的更新持續(xù)增長。
關(guān)鍵詞:arXiv 數(shù)據(jù)集?
170 萬+ 篇學術(shù)論文,1.1 TB 大小,這是 arXix 最近在 kaggle 開放的一套數(shù)據(jù)集,網(wǎng)友問訊驚呼:太酷了!
網(wǎng)友評論區(qū)紛紛捧場:太棒了!
數(shù)據(jù)集整理團隊表示,希望能以此激發(fā)相關(guān)研究者,探索更豐富的機器學習技術(shù),提出更多的發(fā)現(xiàn)和創(chuàng)新。
?開放數(shù)據(jù)集,讓論文搜索更簡單
近 30 年來,arXiv 為公眾和研究團隊提供學術(shù)文章的開放訪問渠道,這些學術(shù)論文涵蓋的領(lǐng)域極為廣泛,從物理學的龐大分支,到計算機科學的眾多分支,再到數(shù)學、統(tǒng)計學、電子工程、定量生物學和經(jīng)濟學等所有學科。
這些 arXiv 上大量的研究論文,雖然很多人從中獲益,但也經(jīng)常有人反映,它存在瀏覽、搜索和排序不方便等缺點。甚至有人還專門找到一些在 arXiv 上搜論文的技巧分享出來。
于是,為了讓 arXiv 更加易于訪問,康奈爾大學現(xiàn)在在 Kaggle 上提供了一個免費、開放的 arXiv 數(shù)據(jù)集。
康奈爾大學發(fā)表博文宣布這一消息
該數(shù)據(jù)集包含了 170 萬篇學術(shù)論文,還包含了論文相關(guān)的元素(features),例如文章標題、作者、類別、摘要以及全文 PDF 等。
arXiv 執(zhí)行董事 Eleonora Presani 介紹說:「在 Kaggle 上擁有整個 arXiv 語料庫,極大地增加了 arXiv 論文的潛力。通過在 Kaggle 上提供數(shù)據(jù)集,我們不再只是讓大家通過閱讀這些文章學到知識,更重要的是,將 arXiv 背后的數(shù)據(jù)和信息,以機器可讀的格式提供給公眾。」
Eleonora Presani?是?arXiv 的第一任執(zhí)行董事
Presani 還說:「arXiv 不僅僅是一個論文庫,它還是一個知識共享的平臺。這要求我們在展示和解釋可用知識的方式上,不斷創(chuàng)新。而 Kaggle 用戶可以幫助突破這一創(chuàng)新的極限,它成為了我們進行社區(qū)協(xié)作的新渠道。」
?圍觀:arXiv 數(shù)據(jù)集都包括些啥?
arXiv 數(shù)據(jù)集基本信息如下:
arXiv?Dataset
發(fā)布人員:?Paul Ginsparg,Moonshot Factory,Jack Hidary
包含數(shù)量:170 萬+?篇學術(shù)論文
數(shù)據(jù)格式:json
數(shù)據(jù)大小:1.1?TB
發(fā)布時間:2020 年 8?月
下載地址:https://www.kaggle.com/Cornell-University/arxiv
目前,arXiv 數(shù)據(jù)集提供了 json 格式的元數(shù)據(jù)文件,它包含每篇論文的相關(guān)條目,具體如下:
id:論文訪問地址,可用于訪問論文;
submitter:論文提交者;
authors:論文作者;
title:論文標題;
comments:論文頁數(shù)和圖表等其它信息;
journal-ref:論文發(fā)表的期刊信息;
doi:數(shù)字對象標識符;
abstract:論文摘要;
categories:論文在 arXiv 所屬類別或標簽;
versions:論文版本。
可以輕松地在這些浩如煙海的論文中進行遍歷、篩選、查閱。
數(shù)據(jù)集目前已更新了 5 個版本
此外,用戶還可以通過以下兩個鏈接直接在 arXiv 上訪問每篇論文:
https://arxiv.org/abs/{id}:論文頁面,包括摘要和其他鏈接;
https://arxiv.org/pdf/{id}:論文 PDF 下載頁面。
還可以批量訪問:用戶可以在谷歌云存儲上的 bucket gs://arxiv-dataset 上免費獲取完整的 PDF 文件,或通過谷歌API (json documentation 和 xml documentation)來獲取。
論文 PDF 文件被分組到 tarpdfs 文件夾的幾個 .tar.gz 文件中,整套數(shù)據(jù)集大約有 1.1TB 大小。具體如下所示(以下分別是?2010 年 1 月(1001)的 1、2、3 部分字段):
tarpdfs/arXiv_pdf_1001_001.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz) tarpdfs/arXiv_pdf_1001_002.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz) tarpdfs/arXiv_pdf_1001_003.tar.gz? (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)用戶還可以使用 gsutil 之類的工具,將數(shù)據(jù)下載到本地計算機。
數(shù)據(jù)集中的元數(shù)據(jù)示例
不過,這個數(shù)據(jù)集具體有哪些使用場景呢?很多網(wǎng)友已經(jīng)有了想法,比如主題建模、用該數(shù)據(jù)訓練 GPT-3 等。
?arXiv:巨大的學術(shù)論文資源庫
科研學術(shù)圈的同學,對 arXiv 一定都不陌生。
它是一個收集物理學、數(shù)學、計算機科學與生物學論文預(yù)印本的網(wǎng)站,不僅為廣大科研人員提供了一個 idea「占坑」的平臺,也是大家搜索、閱讀論文的巨大資源庫。
截至 2008 年 10 月,arXiv.org 已收集超過 50 萬篇預(yù)印本;至 2014 年底,其藏量達到 100 萬篇;截至 2016 年 10 月,arXiv 提交量每月已經(jīng)超過 10000 篇。
目前?arXiv 上的學術(shù)論文已經(jīng)有約?174.46?萬篇
arXiv 最早是由物理學家保羅·金斯巴格,在 1991 年建立的網(wǎng)站,本意是收集物理學的論文預(yù)印本,隨后括及天文、數(shù)學等其它領(lǐng)域。
arXiv 原先掛在洛斯阿拉莫斯國家實驗室(LANL),因此早期被稱為「LANL預(yù)印本數(shù)據(jù)庫」。目前 arXiv 落腳于康奈爾大學,并在全球各地設(shè)有鏡像站點。網(wǎng)站在 1999 年改名為 arXiv.org。
現(xiàn)在,用通俗的話來說,arXiv 就是一個用來「占坑」的網(wǎng)站,研究者們?yōu)榱朔乐棺约旱?idea 在論文被收錄之前被別人剽竊,就會將預(yù)稿先發(fā)表在 arXiv 上,以證明自己的原創(chuàng)性。
參考資料:
https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/
https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json
https://zh.wikipedia.org/wiki/ArXiv
—— 完 ——
總結(jié)
以上是生活随笔為你收集整理的【论文相关】1.1 T 的 arXiv 数据集:170 万篇论文,可以看到下辈子的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】基于机器学习的文本分类!
- 下一篇: 【Python】全网最新最全Pyecha