當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】好资源！近 20 万本 txt 书籍的语料库，可用于 GPT 模型训练和语义分析...

發布時間：2025/3/12 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】好资源！近 20 万本 txt 书籍的语料库，可用于 GPT 模型训练和语义分析... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于缺少規范化的數據集，訓練一個像OpenAI一樣的GPT模型通常很難。現在有了，它就是BookCorpus的"books3"數據集，一個包含196,640本書的txt數據集。

下載鏈接：https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

但在下載這個37Gb的大文件前，我們先了解了解這個數據集。

https://github.com/soskek/bookcorpus

BookCorpus是一個流行的大型文本語料庫，適合在無人監督下學習句子的編碼/解碼器。但是，BookCorpus 目前已不再更新。

此存儲庫的數據來源包括smashwords的數據，是 BookCorpus 的原始來源。后續收集添加的句子可能有部分不同，但數量會更大更豐富。

最簡單的調用方式是：

from?datasets?import?load_dataset dataset = load_dataset("bookcorpus")

雖然bookcorpus已不再更新，但后續仍有人為該數據集豐富內容，更新信息。其中最突出的就是Shawn在今年9月貢獻的book3語料庫，每本書都以文本文件的形式單獨存儲。

Book3數據集

數據集的質量非常高，作者為了構建數據集，花了一周時間修繕了epub2txt腳本。

新腳本保證了：

正確保留結構，與目錄非常匹配;

正確呈現數據表（默認情況下 html2txt 主要為表生成垃圾查找結果），

正確保留代碼結構，使源代碼和類似內容在視覺上保持一致，

將編號列表從"1\"轉換為"1"。

通過"ftfy.fix_text（）運用在全文上（這是 OpenAI 對 GPT 的用途）運行全文，將Unicode的撇號替換為ascii編碼的撇號;

將 Unicode 橢圓擴展到"..."（三個單獨的 ascii 字符）。

包含196,640本書籍
全部txt格式
鏈接更穩定，可直接下載。鏈接：https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

如果想要下載其他數據集，可以訪問：

https://the-eye.eu/public/AI/pile_preliminary_components/?

附上一個書籍的網頁版樣例：《Do It Yourself》

https://battle.shawwn.com/sdb/books1/books1/epubtxt/do-it-yourself-lifetime-financial-planning.epub.txt

參考：

[1]https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/?utm_medium=android_app&utm_source=share

[2]https://github.com/soskek/bookcorpus/issues/27

[3]https://twitter.com/theshawwn/status/1320282149329784833

[4]https://github.com/soskek/bookcorpus

[5]https://huggingface.co/datasets/bookcorpus

- EOF -

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻本站qq群851320808，加入微信群請掃碼：

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。