精心挑选的100多种机器学习数据集
毫無疑問,每個人都知道,學習數據科學和機器學習的唯一最佳方法是通過執行各種項目來學習它們。老實說,您周圍有很多現實世界的機器學習數據集,即使您不必完成全面的數據科學或機器學習課程,也可以選擇練習基礎數據科學和機器學習技能。但是是的,數據科學和機器學習項目絕對沒有其他選擇。大多數數據科學和機器學習初學者做錯的事情是,他們只是專注于學習許多理論概念,而等待太長時間才能啟動專注于該概念的實際實現的機器學習/數據科學項目。毫無疑問,從理論上講清楚您的機器學習概念總會很好,但是如果沒有獲得相關的實際經驗,您就無法期望成為企業數據科學家或機器學習工程師。在此博客的此處,我們將為您提供100多個有價值的數據集,以供機器學習(特別是對于初學者)使用,這無疑將有助于驗證您的基本數據科學和機器學習技能。
機器學習中的數據集是什么?
機器學習中的數據集是實例的集合(實例是指一行數據),這些實例都共享一些共同的特征和屬性。為了使機器學習模型執行不同的動作,需要兩種數據集–
訓練數據集-送入機器學習算法進行訓練的數據。
?
測試數據集或驗證數據集–用于評估和測試機器學習模型正在正確解釋的數據。
為什么需要機器學習數據集?
機器學習算法從數據中學習。機器學習算法可識別趨勢,關系并根據為訓練模型而提供的大量數據進行預測。因此,數據是機器學習中的金鵝。從機器學習模型中收集的見解與數據集一樣好。對于機器學習項目而言,擁有大量且更好的訓練數據可帶來更好而準確的模型性能。可靠的機器學習數據集非常重要,并且在精確的機器學習模型的開發中起著至關重要的作用。
可在此處免費訪問已解決的機器學習Python和R代碼示例(這些已為您的項目準備使用)
在哪里可以找到用于機器學習的數據集?
有大量的免費和付費資源可用于機器學習數據集。公共機器學習數據集可幫助您入門的最受歡迎資源包括–
UCI或UC Irvine機器學習數據集存儲庫
AWS數據集
Google數據集搜索
數據政府
微軟研究開放數據
卡格勒
世界銀行
但是,對于數據科學和機器學習的初學者來說,從這些網站上提供的眾多選項中進行選擇可能會變得勢不可擋。如果您想學習機器學習,則需要一個堅實的基礎,這意味著用于機器學習項目的有趣數據集,以及一些可以使用這些免費數據集的很棒的項目構想。想知道在哪里可以找到免費和公共的機器學習數據集?別無所求……無論是零售,醫療保健,銀行與金融,犯罪,還是其他任何類型的機器學習數據集,我們都精選了一系列頂級機器學習數據集,以幫助您使模型成功。
面向數據科學和機器學習從業人員的100多種機器學習數據集
機器學習數據集
我們匯總了一個以領域為中心的頂級機器學習數據集列表,其中包含對數據和可以使用特定數據集進行的項目的簡短描述。
零售機器學習數據集
醫療保健機器學習數據集
銀行和金融機器學習數據集
社交媒體機器學習數據集
犯罪機器學習數據集
機器學習的最佳零售數據集
機器學習的零售數據集
零售交易機器學習數據集
1)在線零售數據集(英國在線商店)
如果您熱衷于預處理大型零售數據集,則可能希望查找這家英國的在線公司的交易數據,該數據可以出售獨特的全場合贈品。 分類和聚類具有超過500,000行和8個屬性,是可以使用此數據集執行的最常見的關聯機器學習任務。
?
?Download Online Retail Dataset for Machine Learning
?
?Interesting Machine Learning Project Idea using UK Online Retail Dataset–?Perform Market Basket Analysis to identify the association rules between the products.
2)零售火箭推薦系統數據集
該數據集由真實世界電子商務網站的點擊流數據組成,該網站具有有關客戶行為的信息,例如添加到購物車信息,交易和點擊以及有關417053個唯一商品的不同商品屬性的信息。 數據集具有事件數據文件,其中包含有關用戶在特定時間戳下對產品執行的事件(添加到購物車,交易或視圖)的信息。 僅當用戶進行交易時,事件數據文件中的“ transaction-id”列才具有值,否則為N / A。
Download Retail Rocket Recommender System Dataset for Machine Learning
Machine Learning Project Idea using Retail Rocket Machine Learning Dataset –?Build a Recommender System?to predict the transaction and event pattern of a visitor.
3)用于機器學習的Instacart訂單數據集
這是另一個有趣的機器學習數據集,可處理200,000多個Instacart匿名客戶的雜貨訂單,該數據集可用于處理大型零售數據。對于每個客戶,數據集均包含購買產品的順序中4到100個訂單的數據以及一天中的星期幾和小時數。 XGBoost,Word2Vec和Annoy是機器學習算法,徹底改變了Instacart客戶如今購買雜貨的方式。
Download Instacart Orders Kaggle Dataset
使用Instacart數據集的初學者的機器學習/數據科學項目創意
客戶細分–建立基于關聯的機器學習模型,以了解Instacart客戶的多樣化組合,并針對合適的客戶群體以最大程度地提高盈利能力。
市場籃子分析–開發預測性市場籃子分析機器學習模型,以確定Instacart客戶將再次購買哪些產品?
4)Olist的巴西電子商務數據集
該機器學習數據集由Olist商店的10萬個客戶訂單數據組成,其中包括賣方信息,產品元數據,客戶信息和客戶評論的詳細信息。
?
Download Brazilian E-commerce Public Kaggle Dataset by Olist
使用巴西電子商務數據集的數據科學/機器學習項目構想
電子商務產品評論分析–通過分析客戶給出的產品評論中的文字對Olist商店出售的產品進行評分。
分析Olist客戶的購買趨勢,以根據客戶當前購買的商品確定客戶是否打算購買相關產品。
5)機器學習的超級市場數據集
該零售數據集具有超過1000行和17列,具有一家超市公司3個月的歷史銷售數據,并記錄了該公司三個不同分支機構的數據。該零售數據集是任何類型的預測分析項目的理想選擇。
Download Supermarket Kaggle Dataset for Machine Learning
機器學習的零售圖像數據集
6)MVTec密集細分的超市圖像數據集
由于培訓數據數量有限,并且驗證和測試集中的多樣性很高,因此對于機器學習而言,這是一個具有挑戰性的圖像數據集。它具有在700個不同場景中采集的日常產品和雜貨的21K高分辨率圖像,并在與行業相關的設置中以高質量注釋為所有對象實例提供了像素化標簽。
Download MVTec D2S Retail Dataset for Machine Learning
使用MVTec D2S數據集的計算機視覺項目構想
該零售數據集可用于語義圖像分割,以覆蓋自動結帳,倉庫或庫存系統的實際應用。經典的深度學習CNN機器學習算法最適合在像素級別對圖像中的產品進行分類,以簡化結帳流程。
?
7)上下文中的通用對象(COCO)數據集
COCO數據集共有330,000張圖像,超過200,000個標簽,其中包含91個東西類別,80個對象類別,150萬個對象實例以及25萬具有關鍵點的人員-COCO數據集是最流行且最具挑戰性的高質量計算機視覺數據集之一。該數據集代表了我們在日常生活中遇到的各種物體的圖像,被認為是轉移學習的理想檢查點。它是訓練計算機視覺模型的基礎數據集。使用COCO計算機視覺數據集訓練了任何計算機視覺模型后,您就可以使用任何自定義數據集進一步調整模型以學習其他任務。
Download COCO Dataset for Machine Learning
您可以使用COCO數據集進行哪種計算機視覺項目?
對象檢測-使用COCO數據集執行最具挑戰性的計算機視覺任務之一,即預測圖像中不同對象的位置以及存在的對象的類型。
8)弗萊堡雜貨數據集
弗賴堡食品雜貨零售數據集包含5000張圖像,其中包含25種不同的食品雜貨,每個類別至少具有97張圖像,這些圖像已在不同雜貨店的各個部門的實際環境中捕獲。
Download Freiburg Groceries Dataset
使用弗萊堡食品雜貨集的計算機視覺項目構想
您可以基于雜貨產品的多類對象分類構建計算機視覺模型。可以進一步微調此模型,以建立無摩擦的商店體驗,類似于流行的Amazon Go商店,而無需手動結帳。
9)時尚MNIST數據集
憑借10K測試示例,60K,培訓示例以及10類零售產品,分辨率為28×28灰度通道圖像,這是用于深度學習和計算機視覺的MNIST數據集的最佳替代產品之一。但是,這比直接替換更具挑戰性。
Download Fashion MNIST Kaggle Dataset
使用Fashion MNIST數據集的計算機視覺項目構想
通過使用Keras或TensorFlow訓練簡單的CNN從頭開始構建模型,使用此數據集來享受您對服裝分類的初體驗。如果您想練習一種使用CNN機器學習算法解決圖像分類問題的方法,則可以查找此數據集。
10)零售產品結帳數據集
在商店貨架上有來自2000種不同產品類別的超過500,000張零售商品圖像-就產品類別和產品圖像數量而言,這是最大的零售圖像數據集之一。
Download a Large-Scale Retail Product Checkout Kaggle Dataset
使用RPC數據集的計算機視覺項目構想
該數據集被廣泛用于推進零售產品圖像識別的研究,以進行自動貨架審核和結帳。該數據集的高質量性質使其非常適合用于細粒度的零售產品圖像分類。
是否想發展您的數據科學和機器學習技能?查看我們最新的端到端數據科學和機器學習項目以及源代碼
客戶評論用于機器學習的零售數據集
11)亞馬遜客戶評論數據集
從1995年到2015年,該機器學習數據集在數百萬種產品上擁有超過130億條客戶評論,是機器學習,自然語言處理和信息檢索領域的數據科學家和研究人員的福音,以了解客戶體驗。
Download Amazon Customer Reviews Dataset
12)婦女的電子商務服裝評論數據集
這是一個匿名的數據集,因為它包含真實客戶撰寫的評論,并具有23486個帶有10個不同功能變量的客戶評論。該ML數據集提供了一個絕佳的環境,可用于解析多個維度的文本。
Download Women’s E-Commerce Clothing Reviews Dataset
13)宜家機器學習評論數據集
這是一個相當小的機器學習數據集,其中包含從Google Maps刮取的1300條最佳和最差的IKEA客戶評論。這為情感分析提供了一個完美的初學者級數據集。
Download IKEA Reviews Kaggle Dataset
14)亞馬遜和百思買電子產品評論數據集
該數據集專門針對百思買和亞馬遜上提供的50種電子產品提供了7000多個在線評論。數據集包括審閱日期,標題,等級,來源,元數據和其他信息。
Download Amazon and Best Buy Electronic Product Reviews Dataset
15)多域情感數據集
這是一個多域數據集,包含來自許多產品類型的產品評論。超過10萬條Amazon.com對產品,樂器,書籍和DVD的評論,評分介于1到5之間。
Download Multi-Domain Sentiment Kaggle Dataset
使用客戶評論數據集的有趣的機器學習項目創意
使用NLP根據客戶評論的內容預測收視率
研究客戶反饋對產品購買過程的影響。您可以使用這些評論數據集來預測客戶向其朋友推薦產品的可能性。
研究各種品牌的在線聲譽。
對客戶評論進行情緒分析,以識別用戶對產品的情感(正面,負面或中立)。 (評論情緒)
ProjectPro通過構建端到端的現實世界數據科學和機器學習項目來幫助學生學習實踐技能。為有源代碼的學生檢查一些有趣的有趣的機器學習項目構想。
其他用于機器學習的零售數據集
16)來自維多利亞的秘密和其他組織的內衣數據
該數據集包含來自受歡迎的零售網站(如亞馬遜,維多利亞的秘密,漢基·潘基,梅西百貨,Btemptd,Nordstrom,American Eagle等)的600,000多種內衣產品的數據。
Download Innerwear Data from Victoria’s Secret and Others Kaggle Dataset
使用Innerwear Kaggle數據集的機器學習項目構想:
該數據集可用于分析泳裝和內裝產品的流行趨勢。
17)電子商務項目數據
機器學習數據集包含500個SKU,以及服裝品牌產品目錄中的產品說明。
Download eCommerce Item Kaggle Dataset
使用電子商務項目Kaggle數據集的機器學習項目構想:
您可以使用Item數據進行的有趣的機器學習項目是構建產品推薦系統。
18)eBay在線拍賣數據集
該在線拍賣零售數據集包含拍賣信息,例如競標價格,競標時間,物品的拍賣價格,以及有關施華洛世奇珠子,卡地亞手表,Xbox游戲機和Palm Pilot M515 PDA的其他拍賣信息。
Download eBay Online Auctions Dataset
使用在線拍賣Kaggle數據集的機器學習項目構想:
建立機器學習模型以預測拍賣品的最終價格。從利潤最大化的角度來看,預測拍賣品的最終價格對買賣雙方都有利。
19)沃爾瑪數據集
這是最佳的初學者級機器學習數據集之一,因為它具有最多的零售數據以及每個沃爾瑪商店區域中的外部數據,例如失業率,燃料價格,CPI,是進行詳細分析的理想選擇。該Kaggle數據集包含2010年至2012年記錄的45家沃爾瑪商店的匿名歷史銷售數據。
Download Walmart Store Sales Kaggle Dataset
使用沃爾瑪零售數據集的機器學習/數據科學項目構想
考慮假日和降價事件,消費者物價指數,季節變化以及其他影響產品銷售的因素,建立一個機器學習模型來預測沃爾瑪在全部門的銷售。銷售預測模型可幫助公司草擬有關如何滿足未來需求和增加銷售的計劃。
20)男鞋價格數據集
該數據集包含10,000種男鞋的大集合,以及它們的銷售價格,品牌名稱,鞋名和其他信息。
Download Men’s Shoe Price Dataset
使用鞋價數據集的機器學習/數據科學項目構想
使用此定價數據建立機器學習模型以-
確定奢侈品牌的品牌價值
確定定價策略
確定奢侈男鞋的趨勢
確定鞋子的特定功能與價格變化之間的相關性。
機器學習的最佳醫療保健數據集
用于機器學習的醫療保健數據集
1)OSIC肺纖維化進展
開源影像協會醫療保健數據集包括200例匿名的肺部基線CT掃描以及其他相關臨床信息,例如基線強迫生命系數,患者性別,年齡,基線掃描后的相對周數,吸煙狀況等。
Download OSIC Pulmonary Fibrosis Progression Dataset
使用OSIC Kaggle數據集的數據科學/機器學習項目構想
您可以建立機器學習模型來預測患者肺功能下降的嚴重程度。
2)APTOS 2019失明檢測
這是在各種成像條件下捕獲的眼底攝影視網膜圖像的多樣化且廣泛的數據集。根據糖尿病性視網膜病變的嚴重程度,每張圖片的臨床評分為0到4。
Download APTOS 2019 Blindness Detection Kaggle Dataset
使用APTOS數據集的機器學習項目構想
在285萬人中,有1/3患有糖尿病性視網膜病變。您可以使用此數據集建立一個機器學習模型,該模型可以在DR引起影響眼睛的并發癥之前早發現DR,這將幫助數百萬糖尿病患者失去視力。
3)超聲神經分割數據集
這個Kaggle數據集包含5635張圖像,其中的神經已由人工手動注釋。它是具有挑戰性的機器學習數據集之一,因為它具有減小的數據大小并且沒有明顯的結構特征。
Download Ultrasound Nerve Segmentation Dataset
訪問帶有源代碼的該機器學習項目,以建立一個機器學習模型,該模型可識別超聲圖像中的神經結構,以分割稱為臂叢(BP)的神經集合。
4)帕金森數據集
這是一個非常小的醫療數據集,大約需要39 KB的數據,并且可以對31位患者進行一系列生物醫學語音測量,其中23位患有帕金森氏病。
Download Parkinson Dataset from UCI Machine Learning Repository
使用帕金森數據集的機器學習項目構想
每年印度有超過100萬人受到帕金森氏病的影響。這種疾病是慢性的,無法治愈,甚至很難為醫生早期診斷。您可以建立一個機器學習模型,以準確檢測個體中帕金森氏病的早期發作,并基于多種因素來確定帕金森氏病患者是否健康。
5)英特爾和MobileODT宮頸癌數據集
該Kaggle數據集包含1481個訓練圖像和512個測試圖像。考慮到此數據集的局限性,您可能必須應用各種數據增強技術來增加訓練樣本的數量。
Download Intel & MobileODT Cervical Cancer Dataset
使用英特爾和移動ODT宮頸癌數據集的深度學習項目構想
使用深度學習和圖像分類的子宮頸類型分類-宮頸癌是致命的,但是如果在早期發現并進行適當治療,對許多婦女來說可以挽救生命。您可以使用此Kaggle數據集構建深度學習模型,以對子宮頸類型(類型1,類型2和類型3)進行分類,以幫助醫療保健專業人員為全球女性提供更好的護理。對子宮頸類型進行分類將有助于醫療保健提供者提高女性子宮頸癌篩查的效率和質量。
6)乳房組織病理學圖像數據集
實際數據集包含162個乳腺癌標本的幻燈片圖像。從該數據集中提取了277,524個補丁,其中78786個屬于陽性類別,而其余198、738個補丁屬于陰性類別。
Download Breast Histopathology Images Dataset
使用乳房組織病理學圖像數據集的深度學習項目構想
乳腺癌是最常見的癌癥類型,在2018年經診斷的210萬例乳腺癌病例中有627,000例死亡報告。在所有確診的乳腺癌病例中,有80%屬于浸潤性導管癌(IDC)類型。早期準確診斷癌癥有助于選擇正確的治療方案,并有助于提高癌癥患者的生存率。您可以使用此數據集構建用于圖像分類的深層CNN,以識別未標記的組織病理學圖像中IDC的存在。這是一項重要的臨床任務,為此,自動化模型肯定會節省時間并減少錯誤。
7)迷你DDSM數據集
最大的(45GB)公共乳腺攝影數據集之一,具有年齡屬性,密度屬性,患者的原始文件名,癌病灶輪廓二進制蒙版圖像以及帶有所有所需元數據的excel表。
Download Mini DDSM Kaggle Dataset
使用Mini DDSM數據集的機器學習項目
年齡估計具有多種臨床應用,并且已經使用生物醫學圖像對人類年齡進行了一些研究。使用此數據集,您可以基于乳房X線照片圖像中的胸肌段建立基于AI的模型來估計年齡。最重要的步驟是從乳房X線照片中分割胸肌,然后提取深度學習特征以建立年齡估計模型。
8)克利夫蘭心臟病數據集
克利夫蘭心臟病UCI數據集包含303個個體的數據,這些個體具有75個屬性,其中14個屬性,例如年齡,性別,靜息血壓,血清膽固醇,靜息心電圖,獲得的最大心率,運動誘發的心絞痛以及其他可能的重要參數發生心血管疾病的主要危險因素。
Download Heart Disease Dataset
使用心臟病數據集的機器學習項目構想
心臟病是世界范圍內死亡率和發病率的主要原因,僅在美國,每年就有61萬例死亡。根據風險因素很難手動確定罹患心血管疾病的幾率。在這里,機器學習可以極大地幫助您根據醫療保健行業產生的大量數據做出預測。您可以應用各種機器學習算法,例如SVM,樸素貝葉斯,XGBoost,決策樹,隨機森林,并使用克利夫蘭心臟病機器學習數據集對它們進行比較,以預測某人是否患有心臟病。
9)行動預測數據集的機制
這是一個獨特的機器學習數據集,由細胞活力數據和基因表達組成,可以訪問超過5K藥物的MoA注釋。這個用于機器學習的數據集基于一種新穎的技術,該技術可測量人類細胞對數百種不同細胞類型池中藥物的反應,從而消除了確定哪種細胞類型更適合任何給定藥物的問題。
Download Mechanisms of Action (MoA) Prediction Kaggle Dataset
使用MoA預測數據集的機器學習項目構想
藥物發現在疾病治療的發展中起著至關重要的作用。機器學習被廣泛用于理解疾病的潛在機制,臨床標記,藥物發現和驗證。通過開發機器學習算法來基于藥物的生物活性對藥物進行分類,該數據集可用于促進藥物開發。
10)世界衛生組織-醫療機器學習數據集的世界
不同國家/地區最值得信賴和最真實的醫療數據來源。通過針對霍亂,肺結核,流行性感冒和其他疾病等特定疾病的COVID -19數據和分析,世衛組織獲得了全球衛生重點數據以及大多數衛生狀況的趨勢重點。
Download Healthcare Datasets for Machine Learning from WHO Repository
?
與醫療數據配合使用的其他有趣且有趣的機器學習項目創意
肺分割
糖尿病預測
接觸追蹤以阻止傳染病的傳播
癌癥分類
個性化醫學
預測慢性病
預測疾病暴發
分類圖像數據(X射線,CT掃描等)以進行診斷護理。
?
最佳銀行和金融機器學習數據集
機器學習的銀行和金融數據集
1)桑坦德數據集
由于這是銀行業務數據集,因此已被完全掩蓋,僅包含數值。西班牙在線銀行桑坦德銀行提供了四個不同的數據集,以幫助他們使用機器學習解決各種業務挑戰。
ownload Santander Customer Transaction Dataset
Download Santander Value Prediction Dataset
Download Santander Product Recommendation Dataset
Download Santander Customer Satisfaction
?
這些桑坦德銀行數據集可用于構建端到端機器學習模型,以-
預測客戶將來是否會與銀行進行交易,而不管交易的金額如何。
預測客戶是否會購買產品
預測客戶是否有能力支付費用
預測客戶是否對銀行的服務感到滿意。
2)房屋信貸違約風險數據集
該數據集包含7個不同的客戶數據源-貸款申請數據,局數據,信用卡余額數據,以前的貸款申請數據,POS現金余額數據,EMI付款數據和局余額數據。
Download Home Credit Default Risk Kaggle Dataset
使用房屋信用違約風險Kaggle數據集的機器學習項目構想
建立機器學習模型以預測客戶是否有能力償還貸款。這些模型將幫助銀行決定是否只對有能力償還貸款的申請人批準貸款。
3)銀行營業額數據集
該數據集包含針對銀行的大約1萬名客戶的14個功能,其中20%是流失客戶。
Download Bank Turnover Dataset
使用銀行營業額數據集的機器學習項目
該數據集可用于預測客戶流失,這是機器學習的最常見應用之一。您可以建立一個機器學習模型來預測客戶是否會在未來6個月內退出銀行的服務。預測客戶流失將有助于銀行制定保留活動和忠誠度計劃以保留客戶。
4)信用卡交易數據集
該歐洲信用卡數據集包含2013年9月在兩天內發生的284、807筆交易和492筆欺詐交易(占所有交易的0.172%)。這是一個極具挑戰性的數據集,因為它的數據不平衡,因為大多數這些交易不是欺詐性交易,因此很難檢測到欺詐性交易。
Download Credit Card Fraud Transaction Kaggle Dataset
使用信用卡交易數據集的機器學習項目
信用卡欺詐是許多銀行和信用卡公司的常見問題,因為大多數欺詐交易看起來與正常交易相似,并且每天在信用卡上完成大量交易,因此很難手動檢測到欺詐行為。使用此金融機器學習數據集來識別欺詐性信用卡交易,以確保不會因客戶未進行的交易向客戶收費。
5)給我一些信用數據集
該數據集包含2008年為25萬巴西借款人創建的歷史數據,金融機構可以利用這些歷史數據來預測信用評分并做出最佳的財務決策。
Download Give me Some Credit Kaggle Dataset
使用“給我一些信譽”數據集的機器學習項目構想
建立一個機器學習模型,以預測一個人在未來兩年內遭受財務困擾的可能性。
6)兩個西格瑪數據集
該數據集由兩個數據源組成,即Intrinio和Thomson Reuters。 Intrinio提供的培訓市場數據大約有400萬行,而路透社提供的培訓新聞分析數據則有近900萬行,使其成為可用于預測股價的最大數據集之一。
Download Two Sigma Dataset
使用兩個Sigma Kaggle數據集的有趣的機器學習項目創意
股票價格通常由投資者的行為決定,而投資者則根據公共信息確定股票價格以預測股票市場的反應。在此,隨著投資者對這些信息做出反應,財經新聞文章在影響股票價格方面起著至關重要的作用。該數據集可用于構建機器學習模型,以對與公司列表相關的新聞文章進行分類,并基于該模型預測那些公司的股價波動。
7)比特幣歷史數據集
該數據集包括從2012年1月到2020年12月的精選比特幣交易數據,包括開盤價,最高價,最低價和收盤價的逐分鐘更新,以及加權比特幣價格,BTC量和指定貨幣。
Download Bitcoin Historical Dataset
使用比特幣歷史數據集的示例機器學習項目構想
使用此Kaggle數據集構建機器學習模型,以預測明天的比特幣價格。人們可以探索使用LSTM模型來預測比特幣價格。
8)簡街市場數據集
如果您喜歡機器學習項目或想探索一些良好的股市數據,則此數據集可能是一個絕佳的合作機會。它包含帶有匿名功能的真實股市數據,其中數據集中的每一行代表一個交易機會。
Download Jane Street Market Prediction Dataset
使用Jane Street市場預測數據集的建議的機器學習項目
使用Jane Street股票市場數據來構建定量交易機器學習模型,以使用來自全球證券交易所的真實股票市場數據來最大化回報。您還可以針對未來的實際股市數據測試機器學習模型的有效性。
9)Elo商家類別推薦
Elo是巴西的大型支付品牌,向借記卡和信用卡用戶提供餐廳推薦,并根據他們的偏好提供折扣。該數據集包含有關每筆卡交易的信息,以及有關特定商人長達3個月的每張卡交易價值的數據,每張卡的新商人的交易詳細信息,以及基于交易中涉及的各種商人的其他商人數據。卡交易。
Download Elo Merchant Category Recommendation Dataset
建議的Elo商家類別數據集機器學習項目
該數據集可用于查找這些促銷對客戶和商人有多有益。建立機器學習模型來預測客戶的忠誠度分數,并幫助Elo了解客戶的忠誠度,以便他們減少不必要的營銷活動并為其用戶創造正確的體驗。
10)俄羅斯儲蓄銀行俄羅斯住房市場數據集
此數據集的訓練數據包含有關俄羅斯最古老,最大的銀行Sberbank的21000個真實交易的信息,而測試數據包含7K個真實交易以及有關該物業的其他信息。
Download Sberbank Russian Housing Market Kaggle Dataset
使用Sberbank俄羅斯住房市場數據集的機器學習項目構想
使用此豐富的銀行數據集來開發機器學習模型,以預測實際房價,以便開發商,貸方和提供者在購買物業或簽訂租約時充滿信心。這些數據還包括有關俄羅斯經濟和金融部門的信息,這些信息可以幫助開發準確的模型而無需再次猜測。
探索其他100個主要的金融和經濟數據集。
機器學習社交媒體數據集
用于機器學習的社交媒體公共數據集
1)Twitter美國航空情緒數據集
該社交媒體數據集具有14,640行和12個屬性,并包含從Twitter刮取的美國各主要航空公司的推文。
Download Twitter US Airline Sentiment Dataset
ML項目建議的想法:使用機器學習的情感分類系統
您可以使用此數據集將航空公司的推文分類為肯定,否定或中性,以分析旅行者對航空公司的反饋。
2)Google Cloud和YouTube 8M數據集
由Google AI / Research在2016年開發的數據集,其中包含800萬個YouTube視頻(總計50萬小時)和4.8K(每個視頻平均3.4個標簽)視覺標題。
Download YouTube 8M Dataset
使用YouTube 8M數據集的數據科學和機器學習項目構想
建立模型大小小于1GB的緊湊型視頻分類,以學習視頻表示形式。這將有助于推進視頻級注釋。
建立分類機器學習模型以準確分配視頻標簽。
3)COVID-19 Tweets數據集
這是一個多語言的推文數據集,包含超過10億條推文,其中包含冠狀病毒,病毒,covid,ncov19,ncov2019等關鍵字,并帶有標簽,提及,主題和其他信息。
Download COVID19 Tweets Dataset
使用COVID 19數據集的建議ML項目
使用數據挖掘,網絡分析和NLP分析來自該數據集的推文集,以識別人們對大流行的反應以及反應隨時間的變化。您還可以利用此ML數據集來收集有關大流行初期如何傳輸正確信息和錯誤信息的見解。
4)Yelp數據集
該數據集包含5,200,000條評論,其中包含來自4個國家/地區11個地區的1,74,000家企業的信息。
Download Yelp Kaggle Dataset
您可以使用此數據集進行哪些項目以進行機器學習?
使用NLP和情感分析來找出評論中正面或負面的含義,并推斷出各種情感和業務屬性的含義。
5)Twitter上的客戶支持
Twitter上來自頂級品牌的300萬條推文的數據集。
Download Customer Support on Twitter Dataset
我可以使用此ML數據集做什么項目?
?
?
機器學習犯罪數據集
1)舊金山犯罪分類
這是一個歷史數據集,包含2003年至2015年舊金山地區的12年犯罪報告。數據包括犯罪發生的日期,犯罪時間,犯罪描述,地區,地址,位置坐標和解決方案。
Download San Francisco Crime Classification Dataset
使用犯罪分類Kaggle數據集的ML項目構想
建立端到端機器學習模型,根據事件發生的位置和時間來預測犯罪事件的類別。
2)倫敦犯罪數據集
該數據集由LSOA區,月份和次要/主要類別在2008年1月至2016年12月之間的犯罪報告組成,犯罪記錄為1300萬行。
Download London Crime Dataset
使用London Crime Kaggle數據集的建議項目
該數據可用于分析根據一周中的某天或某個季節的犯罪發生率是否發生任何變化,或確定特定犯罪在減少或增加的自治市鎮。
3)印度犯罪
該數據集包含有關2001年國家犯罪數據的完整信息,分為40多個因素。
Download Crime in India Dataset
使用此數據集的分析建議項目
該數據集可用于分析印度的犯罪模式,例如虐待兒童案件,針對SC和ST的犯罪以及其他犯罪,以根據犯罪模式發現潛在的罪犯。
4)芝加哥犯罪數據集
來自芝加哥警察局的芝加哥犯罪數據集有699萬行,具有22個屬性。該數據集會隨著犯罪事件不斷更新。
Download Chicago Crime Dataset
使用Chicago Crime Dataset的機器學習項目構想
可以利用該數據集來構建模型,以分析溫度對暴力犯罪(如毆打或毆打)的影響,確定同比增長最高的犯罪類別等。
5)波士頓數據集中的犯罪
數據集由波士頓警察局提供,其中包含2015年6月以來的犯罪類型,犯罪發生的時間和地點,犯罪描述,位置坐標以及其他信息。
Download Crime in Boston Dataset
該數據集可用于構建一個模型,以識別犯罪熱點和犯罪的頻繁發生時間。
獲取多個大數據電子書:下載地址
總結
以上是生活随笔為你收集整理的精心挑选的100多种机器学习数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux的打开文件表:打开文件表、文件
- 下一篇: 实验九 哈希表的查找操作