Python-csvkit:强大的CSV文件命令行工具
如果你在學(xué)Python數(shù)據(jù)處理,一定對CSV文件不陌生。日常本地?cái)?shù)據(jù)存儲(chǔ)中,除了Excel文件外,大部分?jǐn)?shù)據(jù)都是以CSV文件格式保存的。
CSV(Comma-Separated Values)是一種文本文件,也叫作逗號(hào)分隔值文件格式。顧名思義,它就是用來保存純文本,被分隔符分隔為多個(gè)字段。
CSV文件能夠被Excel、notepad++、Java、Python等各種軟件讀取,非常方便。
因?yàn)樗Y(jié)構(gòu)簡單、易傳輸、易讀取的特性,使其廣受個(gè)人和商業(yè)領(lǐng)域歡迎。
在Python中,可以使用read函數(shù)、pandas庫、csv庫等讀寫CSV文件,而且這些也是常用的方法。
這次給大家介紹一個(gè)非常強(qiáng)大的第三方庫-csvkit,它是專門處理CSV文件的命令行工具,可以實(shí)現(xiàn)文件互轉(zhuǎn)、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計(jì)等,十分便捷。
因?yàn)閏svkit是Python第三方庫,我們直接使用pip來安裝csvkit。
pip install csvkit
csvkit是命令行工具,所以代碼都在命令行執(zhí)行,下面列舉一些常見的使用場景。
我們先在本地保存一個(gè)Excel表(DoubanMovie),其內(nèi)容是豆瓣電影數(shù)據(jù)。
注意命令行地址要切換到該表所在位置。
比如我放在E:\csvkit_tutorial\里面,可以用下面命令來切換。
E: cd?csvkit_tutorial1、Excel轉(zhuǎn)CSV
csvkit支持將Excel等其他數(shù)據(jù)文件轉(zhuǎn)化為CSV文件,使用in2csv命令實(shí)現(xiàn)。
in2csv?DoubanMovie.xlsx?>?DoubanMovie.csv除了Excel的xlsx和xls文件外,你還可以對下面多種數(shù)據(jù)格式進(jìn)行CSV的轉(zhuǎn)換
包括:dbf , fixed , geojson , json , ndjson
2、對SQL數(shù)據(jù)庫進(jìn)行讀寫和查詢操作
從MySQL數(shù)據(jù)庫中讀取一張表存到本地CSV文件中,使用csvsql命令實(shí)現(xiàn)。
csvsql?--db?"mysql://user:pass@host/database?charset=utf8"?--tables?"test1"?--insert?test1.csv直接對MySQL數(shù)據(jù)庫進(jìn)行數(shù)據(jù)查詢,使用sql2csv命令實(shí)現(xiàn)
sql2csv?--db?"mysql://user:pass@host/database?charset=utf8"?--query?"select?*?from?test2"注意代碼中--db參數(shù)后面需要輸入數(shù)據(jù)庫的信息,用于連接數(shù)據(jù)庫。
3、將CSV文件轉(zhuǎn)換為Json格式
除了將Json文件轉(zhuǎn)化為CSV格式外,csvkit也支持將CSV文件轉(zhuǎn)化為Json格式,使用csvjson命令實(shí)現(xiàn)。
csvjson?test.csv如果你是做地理空間分析,還可以將csv文件轉(zhuǎn)化為GeoJson格式。
4、數(shù)據(jù)處理和分析
csvkit中還有用于數(shù)據(jù)處理分析的命令,如下:
csvcut:對數(shù)據(jù)進(jìn)行索引切片
csvgrep:對數(shù)據(jù)進(jìn)行過濾,可按照正則表達(dá)式規(guī)則
csvjoin:對不同數(shù)據(jù)表按鍵進(jìn)行連接
csvsort:對數(shù)據(jù)進(jìn)行排序
csvstack:將多個(gè)數(shù)據(jù)表進(jìn)行合并
csvlook:以 Markdown 兼容的固定寬度格式將 CSV 呈現(xiàn)到命令行
csvstat:對數(shù)據(jù)進(jìn)行簡單的統(tǒng)計(jì)分析
小結(jié)
csvkit適合那些經(jīng)常處理CSV文件的小伙伴,可快速的進(jìn)行轉(zhuǎn)化、清晰、分析等任務(wù)。特別當(dāng)你的文件較大,一般軟件難以打開時(shí),csvkit的速度絕對會(huì)讓你驚艷到。
學(xué)習(xí)文檔:https://csvkit.readthedocs.io/en/latest/index.html
END
各位伙伴們好,詹帥本帥搭建了一個(gè)個(gè)人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請移步小程序體驗(yàn)一下哦!(歡迎提建議)推薦閱讀
牛逼!Python常用數(shù)據(jù)類型的基本操作(長文系列第①篇)
牛逼!Python的判斷、循環(huán)和各種表達(dá)式(長文系列第②篇)
牛逼!Python函數(shù)和文件操作(長文系列第③篇)
牛逼!Python錯(cuò)誤、異常和模塊(長文系列第④篇)
總結(jié)
以上是生活随笔為你收集整理的Python-csvkit:强大的CSV文件命令行工具的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Matplotlib 可视化之箭头与标注
- 下一篇: VS Code,请还我文件!!!