机器学习模型开发必读:开源数据库最全盘点
開發 AI 和機器學習系統從來沒有像現在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具,在 AI 開發者群體中已是無處不在。再加上亞馬遜 AWS、Google Cloud 等云服務帶來的海量計算能力,將來使用筆記本電腦來訓練 ML 模型或許不再難以想象。
公眾對 AI 的遐想,總忽視了數據的角色。但海量被標記、注解過的數據,是當下 AI 革命當之無愧的主要推手之一。業內研究團隊和公司機構,均明白“數據民主化”的意義——使任何開發者都能獲取高質量的數據來訓練、測試模型,是加速 AI 技術發展的必要措施。
但就雷鋒網所知,大多數涉及機器學習和 AI 的產品依賴于專有數據庫( proprietary datasets)。它們大多是不被公開的,以保護知識產權以及防范安全風險。
即便你幸運地找到了相關公共數據庫,判斷后者的價值和可靠程度,又是一項讓很多開發者頭痛的問題。對于概念論證是如此;對于潛在的產品或者特性驗證同樣如此——在收集你的專有數據之前,決定該驗證需要何種數據集。
有經驗的開發者都知道,機器學習系統在樣本數據集上展示出的優異性能,并不能保證其實際效果。許多 AI 從業人員似乎已經忘記了,數據采集和標記才是開發 AI 解決方案最難的一環。標準的數據集,可被用作驗證集,或作為開發更偏向私人訂制方案的起始點。
本周,Vai Technologies 的創始人、前斯坦福 SLAC 實驗室 CNN 算法架構師 Luke de Oliveira,和其他幾名機器學習專家談到了這個問題。雷鋒網(公眾號:雷鋒網)了解到,他們最后決定做一張表單,把 AI 領域含金量最高的開源數據庫羅列出來,與大家分享。
計算機視覺
MNIST
標簽:學術基準 經典 較舊
合理性測試(sanity check)最常用的數據庫。規格為 25x25、中心的、B&W 手寫數字。用 MNIST 測試非常容易,但不要因為你的模型在 MNIST 運行良好,就認為它事實上可用。
地址:https://pjreddie.com/projects/mnist-in-csv/
CIFAR 10 & CIFAR 100
標簽:經典 較舊
32x32 彩色圖像。雖然用得人比以前少了很多,但仍然能用它做有趣的合理性測試。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet
標簽:實用 學術基準 經典
這個用不著介紹,新算法的首選圖像數據集。Luke de Oliveira 表示,許多圖像 API 公司從 REST 交互界面搞來的標記,與 ImageNet 1000 目錄中的 WordNet 層級很接近,讓人懷疑。
地址:http://image-net.org/
LSUN
標簽:無
場景理解,許多其它附加任務(比如房間布局預估,顯著性預測 “saliency prediction”),以及與之關聯的競賽。
地址:http://lsun.cs.princeton.edu/2016/
PASCAL VOC
標簽:學術基準
一般性的圖像分割和分類。對于創建現實世界中的圖像注解并不是十分有用,但作為基準很不錯。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
SVHN
標簽:學術基準
谷歌街景視圖中的住宅號。可以把它當做野生的遞歸( recurrent) MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO
標簽:無
?一般性的圖像理解/說明,有相關競賽。
地址:http://mscoco.org/
Visual Genome
標簽:實用
非常細致的視覺知識庫,對超過十萬張圖像有深度注解。
地址:http://visualgenome.org/
Labeled Faces in the Wild
標簽:實用 學術基準 經典 較舊
修剪過的面部區域(使用 Viola-Jones),用一個 name identifier 做過標記。其中每一個展示的人在數據集中有兩個圖像,這是作為他的子集。開發者經常用它來訓練面部匹配系統。
地址:http://vis-www.cs.umass.edu/lfw/
自然語言
Text Classification Datasets
標簽:實用 學術基準
來自論文?Zhang et al., 2015。這是有八個文字分類數據集組成的大型數據庫。對于新的文字分類基準,它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數據集。
地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText
標簽:實用 學術基準
源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。
地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs
標簽:實用
Quora 發布的第一個數據集,包含副本/語義近似值標記。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD
標簽:實用 學術基準
斯坦福的問答社區數據集——適用范圍較廣的問題回答和閱讀理解數據集。每一個回答都被作為一個 span,或者一段文本。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset
標簽:無
人工創建的仿真陳述問題/回答組合,還有維基百科文章的難度評分。
地址:http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets
標簽:實用
為 NLP 研究人工創建的復雜數據集。
地址:https://datasets.maluuba.com/
Billion Words
標簽:實用 學術基準
大型、通用型建模數據集。時常用來訓練散布音(distributed)的詞語表達,比如 word2vec 或 ?GloVe。
地址:http://www.statmt.org/lm-benchmark/
Common Crawl
標簽:實用 學術基準
PB(拍字節)級別的網絡爬蟲。最經常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網的信息采集,是一個比較有用的網絡數據集。
地址:http://commoncrawl.org/the-data/
bAbi
標簽:學術基準?經典
Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數據集。
地址:https://research.fb.com/projects/babi/
The Children's Book Test
標簽:學術基準
Project Gutenberg(一項正版數字圖書免費分享工程)兒童圖書里提取的成對數據(問題加情境,回答)基準。對問答、閱讀理解、仿真陳述(factoid)查詢比較有用。
地址:https://research.fb.com/projects/babi/
Stanford Sentiment Treebank
標簽:學術基準 經典 較舊
標準的情緒數據集,對每一句話每一個節點的語法樹,都有細致的情感注解。
地址:http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups
標簽:經典 較舊
一個較經典的文本分類數據集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準,在這方面比較有用。
地址:http://qwone.com/~jason/20Newsgroups/
Reuters
標簽:經典 較舊
較老的、基于純粹分類的數據集。文本來自于路透社新聞專線。常被用于教程之中。
地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
?IMDB
標簽:經典 較舊
較老的、相對比較小的數據集。用于情緒分類。但在文學基準方面逐漸失寵,讓位于更大的數據集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase
標簽:經典 較舊
較老的、經典垃圾郵件數據集,源自于 UCI Machine Learning Repository。由于數據集的管理細節,在學習私人訂制垃圾信息過濾方面,這會是一個有趣的基準。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語音
大多數語音識別數據庫都是專有的——這些數據對其所有公司而言有巨大價值。絕大部分該領域的公共數據集已經很老了。
2000 HUB5 English
標簽:學術基準 較舊
只包含英語的語音數據。最近一次被使用是百度的深度語音論文。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech
標簽:學術基準
有聲圖書數據集,包含文字和語音。接近 500 個小時的清楚語音,來自于多名朗讀者和多個有聲讀物,根據圖書章節來組織。
地址:http://www.openslr.org/12/
VoxForge
標簽:實用 學術基準
帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力,會比較有用。
地址:http://www.voxforge.org/
TIMIT
標簽:學術基準 經典
只含英語的語音識別數據集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME
標簽:實用
含大量噪音的語音識別挑戰杯數據集。它包含真實、模擬和清晰的錄音:真實,是因為該數據集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音;模擬,是通過把多個環境與語音結合來生成;清晰,是指沒有噪音的清楚錄音。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM
標簽:無
TED 演講的音頻轉錄。包含 1495 場 TED 演講,以及它們的完整字幕文本。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排名系統
Netflix Challenge
標簽:經典 較舊
第一個 Kaggle 模式的數據挑戰。由于盜版問題只能獲得非官方版本。
地址:http://www.netflixprize.com/
MovieLens
標簽:實用 學術基準 經典
不同大小的電影點評數據——一般作為協同過濾的基準。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset
標簽:無
Kaggle 上的大型、富含原數據的開源數據集。對于試驗混合推薦系統有價值。
地址:https://www.kaggle.com/c/msdchallenge
Last.fm
標簽:實用
音樂推薦數據集,并關聯相關社交網絡和其他元數據。對混合系統有用處。
地址:http://grouplens.org/datasets/hetrec-2011/
網絡和圖
Amazon Co-Purchasing 和 Amazon Reviews
標簽:學術基準
從亞馬遜“買了這個的用戶還買了XXX”功能抓取的數據,還有相關商品的評價數據。對于試驗網絡中的推薦系統有價值。
地址:http://snap.stanford.edu/data/#amazon
http://snap.stanford.edu/data/amazon-meta.html
Friendster 社交網絡數據集
標簽:無
在成為游戲網站之前,Friendster 發布了 103,750,348 名用戶朋友名單的匿名數據。
地址:https://archive.org/details/friendster-dataset-201107
地理空間數據
OpenStreetMap
標簽:實用
整個地球的矢量數據,處于免費協議下。它的舊版本包含美國人口統計部門的 TIGER 數據。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8
標簽:實用
整個地球表面的衛星拍照,每隔幾周更新一次。
地址:https://landsat.usgs.gov/landsat-8
NEXRAD
標簽:實用
多普勒天氣雷達對美國大氣情況的掃描。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
后話
人們經常認為,能在一個數據集上解決問題,就等同于有了一個能用的產品。開發者可以使用這些數據集作為驗證集,或用作概念論證;但別忘了測試,或創建模擬產品運行的原型機。獲取更新、更真實的數據來改善模型非常關鍵。雷鋒網了解到,成功的數據驅動型公司,往往擅長收集新的專有數據,以及改善產品性能增強競爭優勢。而這往往是競爭對手難以直接 copy 的。
本文作者:三川 本文轉自雷鋒網禁止二次轉載,原文鏈接
總結
以上是生活随笔為你收集整理的机器学习模型开发必读:开源数据库最全盘点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 多云战略:企业如何精益求精?
- 下一篇: java:遍历