Python处理千万级数据
從別人的論文里找到要用的數(shù)據(jù)的原始數(shù)據(jù)自己做過(guò)濾
搗鼓了兩天覺(jué)得代碼太慢開始用pandas做處理
不得不說(shuō)最大的感觸就是 pandas 以及numpy在一定程度上在還原MATLAB
比如MATLAB中利用邏輯值取數(shù)、元素的用法,pandas中有幾乎一樣的方法
test:
同時(shí)pandas中有很多很好用的方法,猜測(cè)使用了很多哈希值
但是pandas同numpy一樣,增量添加很慢
也就是pandas適用于 已經(jīng)確定size的數(shù)據(jù)的讀取操作非常友好,但是把兩個(gè)dataframe合并,是很慢的操作
實(shí)際上先做了數(shù)據(jù)的拷貝再進(jìn)行的拼接,可想而知是多慢了
而Python里的list是一個(gè)動(dòng)態(tài)數(shù)組,比較適合用于動(dòng)態(tài)增長(zhǎng)的情況,比如append,+,extends這樣的方法
總之記住只對(duì)dataframe進(jìn)行讀取就夠啦
?
最后寫代碼的時(shí)候 對(duì)于for循環(huán)要小心!!!
想清楚這個(gè)代碼是不是在循環(huán)里面還是外面!!
把要在循環(huán)外面的代碼先寫著!!
比如這次把生成dataframe的兩行代碼寫了for循環(huán)里面
查了好幾遍才發(fā)現(xiàn)!! 真的很費(fèi)時(shí)間!!
?
時(shí)間的寶貴使人進(jìn)步。
加油。
?
————————————————
版權(quán)聲明:本文為CSDN博主「HeReCJJ」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/HeReCJJ/article/details/81431240
總結(jié)
以上是生活随笔為你收集整理的Python处理千万级数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数据分析TB级别数据量大了怎么办,不会代
- 下一篇: 视觉传达(说一说视觉传达的简介)