當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子

發(fā)布時間：2025/3/8 编程问答 10 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

By 超神經(jīng)

內(nèi)容提要：近日，arXiv 將 170 萬+ 篇的論文，打包成數(shù)據(jù)集，放在了 kaggle 平臺，以后訪問和下載論文，就更方便了。該數(shù)據(jù)集目前大小 1.1 TB 左右，而且之后還會隨著每周的更新持續(xù)增長。

關(guān)鍵詞：arXiv 數(shù)據(jù)集?

170 萬+ 篇學術(shù)論文，1.1 TB 大小，這是 arXix 最近在 kaggle 開放的一套數(shù)據(jù)集，網(wǎng)友問訊驚呼：太酷了！

網(wǎng)友評論區(qū)紛紛捧場：太棒了！

數(shù)據(jù)集整理團隊表示，希望能以此激發(fā)相關(guān)研究者，探索更豐富的機器學習技術(shù)，提出更多的發(fā)現(xiàn)和創(chuàng)新。

?開放數(shù)據(jù)集，讓論文搜索更簡單

近 30 年來，arXiv 為公眾和研究團隊提供學術(shù)文章的開放訪問渠道，這些學術(shù)論文涵蓋的領(lǐng)域極為廣泛，從物理學的龐大分支，到計算機科學的眾多分支，再到數(shù)學、統(tǒng)計學、電子工程、定量生物學和經(jīng)濟學等所有學科。

這些 arXiv 上大量的研究論文，雖然很多人從中獲益，但也經(jīng)常有人反映，它存在瀏覽、搜索和排序不方便等缺點。甚至有人還專門找到一些在 arXiv 上搜論文的技巧分享出來。

于是，為了讓 arXiv 更加易于訪問，康奈爾大學現(xiàn)在在 Kaggle 上提供了一個免費、開放的 arXiv 數(shù)據(jù)集。

康奈爾大學發(fā)表博文宣布這一消息

該數(shù)據(jù)集包含了 170 萬篇學術(shù)論文，還包含了論文相關(guān)的元素（features），例如文章標題、作者、類別、摘要以及全文 PDF 等。

arXiv 執(zhí)行董事 Eleonora Presani 介紹說：「在 Kaggle 上擁有整個 arXiv 語料庫，極大地增加了 arXiv 論文的潛力。通過在 Kaggle 上提供數(shù)據(jù)集，我們不再只是讓大家通過閱讀這些文章學到知識，更重要的是，將 arXiv 背后的數(shù)據(jù)和信息，以機器可讀的格式提供給公眾。」

Eleonora Presani?是?arXiv 的第一任執(zhí)行董事

Presani 還說：「arXiv 不僅僅是一個論文庫，它還是一個知識共享的平臺。這要求我們在展示和解釋可用知識的方式上，不斷創(chuàng)新。而 Kaggle 用戶可以幫助突破這一創(chuàng)新的極限，它成為了我們進行社區(qū)協(xié)作的新渠道。」

?圍觀：arXiv 數(shù)據(jù)集都包括些啥？

arXiv 數(shù)據(jù)集基本信息如下：

arXiv?Dataset

發(fā)布人員：?Paul Ginsparg，Moonshot Factory，Jack Hidary

包含數(shù)量：170 萬+?篇學術(shù)論文

數(shù)據(jù)格式：json

數(shù)據(jù)大小：1.1?TB

發(fā)布時間：2020 年 8?月

下載地址：https://www.kaggle.com/Cornell-University/arxiv

目前，arXiv 數(shù)據(jù)集提供了 json 格式的元數(shù)據(jù)文件，它包含每篇論文的相關(guān)條目，具體如下：

id：論文訪問地址，可用于訪問論文；
submitter：論文提交者；
authors：論文作者；
title：論文標題；
comments：論文頁數(shù)和圖表等其它信息；
journal-ref：論文發(fā)表的期刊信息；
doi：數(shù)字對象標識符；
abstract：論文摘要；
categories：論文在 arXiv 所屬類別或標簽；
versions：論文版本。

可以輕松地在這些浩如煙海的論文中進行遍歷、篩選、查閱。

數(shù)據(jù)集目前已更新了 5 個版本

此外，用戶還可以通過以下兩個鏈接直接在 arXiv 上訪問每篇論文：

https://arxiv.org/abs/{id}：論文頁面，包括摘要和其他鏈接；
https://arxiv.org/pdf/{id}：論文 PDF 下載頁面。

還可以批量訪問：用戶可以在谷歌云存儲上的 bucket gs://arxiv-dataset 上免費獲取完整的 PDF 文件，或通過谷歌API （json documentation 和 xml documentation）來獲取。

論文 PDF 文件被分組到 tarpdfs 文件夾的幾個 .tar.gz 文件中，整套數(shù)據(jù)集大約有 1.1TB 大小。具體如下所示（以下分別是?2010 年 1 月（1001）的 1、2、3 部分字段）：

tarpdfs/arXiv_pdf_1001_001.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz) tarpdfs/arXiv_pdf_1001_002.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz) tarpdfs/arXiv_pdf_1001_003.tar.gz? (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

用戶還可以使用 gsutil 之類的工具，將數(shù)據(jù)下載到本地計算機。

數(shù)據(jù)集中的元數(shù)據(jù)示例

不過，這個數(shù)據(jù)集具體有哪些使用場景呢？很多網(wǎng)友已經(jīng)有了想法，比如主題建模、用該數(shù)據(jù)訓練 GPT-3 等。

?arXiv：巨大的學術(shù)論文資源庫

科研學術(shù)圈的同學，對 arXiv 一定都不陌生。

它是一個收集物理學、數(shù)學、計算機科學與生物學論文預(yù)印本的網(wǎng)站，不僅為廣大科研人員提供了一個 idea「占坑」的平臺，也是大家搜索、閱讀論文的巨大資源庫。

截至 2008 年 10 月，arXiv.org 已收集超過 50 萬篇預(yù)印本；至 2014 年底，其藏量達到 100 萬篇；截至 2016 年 10 月，arXiv 提交量每月已經(jīng)超過 10000 篇。

目前?arXiv 上的學術(shù)論文已經(jīng)有約?174.46?萬篇

arXiv 最早是由物理學家保羅·金斯巴格，在 1991 年建立的網(wǎng)站，本意是收集物理學的論文預(yù)印本，隨后括及天文、數(shù)學等其它領(lǐng)域。

arXiv 原先掛在洛斯阿拉莫斯國家實驗室(LANL)，因此早期被稱為「LANL預(yù)印本數(shù)據(jù)庫」。目前 arXiv 落腳于康奈爾大學，并在全球各地設(shè)有鏡像站點。網(wǎng)站在 1999 年改名為 arXiv.org。

現(xiàn)在，用通俗的話來說，arXiv 就是一個用來「占坑」的網(wǎng)站，研究者們?yōu)榱朔乐棺约旱?idea 在論文被收錄之前被別人剽竊，就會將預(yù)稿先發(fā)表在 arXiv 上，以證明自己的原創(chuàng)性。

參考資料：

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

—— 完 ——

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學習的數(shù)學基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券，復(fù)制鏈接直接打開：https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群（如果是博士或者準備讀博士請說明）：

總結(jié)

以上是生活随笔為你收集整理的【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【NLP】基于机器学习的文本分类！
下一篇：【Python】全网最新最全Pyecha