下载kaggle数据集的小妙招
生活随笔
收集整理的這篇文章主要介紹了
下载kaggle数据集的小妙招
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
kaggle是很多數據分析和機器學習初學者非常喜愛的數據科學競賽平臺。
這個平臺上有很多接近現實業務場景的數據集,非常適合練手。
今天向大家推薦一個下載kaggle數據集的小工具——kaggleAPI?
配置好之后,可以寫個腳本,以后下載數據就方便多了。
安裝
pip?install?kaggle安裝完畢之后執行
kaggle?compeitions?list然后就會報錯,提示沒有kaggle.json文件,不用理他。
這一步主要是讓其運行后生成配置文件夾,一般在C盤-用戶-用戶名下的.kaggle
配置
登錄kaggle官網右上角頭像處點擊,選擇Account進去之后滾動到最下面API處,選擇Create New API Token
然后就會自動下載一個kaggle.json文件,另存到第一步那個.kaggle文件夾
下載數據集
再執行以下
kaggle?compeitions?list可以看到近期的一些競賽,重點關注以下獎金????
除了list,kaggle competitions 還有一些其他用法,不展開講了。
kaggle?competitions?{list,?files,?download,?submit,?submissions,?leaderboard}大家最關心的數據集下載
kaggle?datasets{list,files,download,create,version,init,metadata,status}比較常用的是:list(可用數據集列表)、files(數據文件)、download(下載)
kaggle?datasets?list用法
usage:?kaggle?datasets?list?[-h]?[--sort-by?SORT_BY] [--size?SIZE]?[--file-type?FILE_TYPE]?[--license?LICENSE_NAME]? [--tags?TaG_IDS]?[-s?SEARCH]?[-m]?[--user?USER]?[-p?PAGE]?[-v]這個里面還有2個常用的參數:-s 搜索,后面可以加關鍵詞;-p 展示多少行,默認是20
kaggle?datasets?download用法
usage:?kaggle?datasets?download? [-h]?[-f?FILE_NAME]?[-p?PATH]?[-w]?[--unzip] [-o]?[-q][dataset]更真實的用法
如果單純在cmd執行個下載指令就大材小用了,我們還可以用kaggleAPI寫shell腳本完成更復雜的用法,比如:
#!/bin/sh DATASET="noxmoon/chinese-official-daily-news-since-2016" ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip" DATA_FILE="chinese_news.csv" DATA_DIR="data" COL_NAME="headline" LINES=3000 OUTPUT_FILE="headlines.txt"if?[?-d?${DATA_DIR}?];?thenecho?${DATA_DIR}'?exists,?please?remove?it?before?running?the?script'exit?1 fiecho?"Creating?dir" mkdir?-p?${DATA_DIR} cd?${DATA_DIR} kaggle?datasets?download?-d?${DATASET} unzip?${ARCHIVE_FILE}echo?"Deleting?original?dataset?archive" rm?-f?${ARCHIVE_FILE}echo?"Extracting,?cutting,?shuffling?data" awk??-v?col=$COL_NAME?-F?"\"*,\"*"?'{print?$COL_NAME}'?$DATA_FILE?|?shuf?-n?3000?>?${OUTPUT_FILE}下載-解壓一氣呵成!
如有收獲,歡迎給個在看!轉發!
推薦閱讀 誤執行了rm -fr /*之后,除了跑路還能怎么辦?!程序員必備58個網站匯總大幅提高生產力:你需要了解的十大Jupyter Lab插件總結
以上是生活随笔為你收集整理的下载kaggle数据集的小妙招的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析最重要的 3 种特征编码,你真
- 下一篇: 数据分析师被老板问住了——场面一度非常尴