當前位置：首頁 > 编程语言 > python >内容正文

python

Read a large file with python

發布時間：2025/3/20 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Read a large file with python 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python讀取大文件

較pythonic的方法，使用with結構

文件可以自動關閉
異?？梢栽趙ith塊內處理

with open(filename, 'rb') as f: for line in f:<do someting with the line>

最大的優點：對可迭代對象 f，進行迭代遍歷：for line in f，會自動地使用緩沖IO（buffered IO）以及內存管理，而不必擔心任何大文件的問題。

There should be one – and preferably only one – obvious way to do it.

使用生成器generator

如果想對每次迭代讀取的內容進行更細粒度的處理，可以使用yield生成器來讀取大文件

def readInChunks(file_obj, chunkSize=2048):"""Lazy function to read a file piece by piece. Default chunk size: 2kB."""while True:data = file_obj.read(chunkSize)if not data:breakyield dataf = open('bigFile')for chunk in readInChunks(f):do_something(chunk)f.close()

linux下使用split命令（將一個文件根據大小或行數平均分成若干個小文件）

wc -l BLM.txt # 讀出BLM.txt文件一共有多少行# 利用split進行分割split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_# 將文件 BLM.txt 分成若干個小文件，每個文件2482行(-l 2482)，文件前綴為BLM_ ，系數不是字母而是數字（-d），后綴系數為四位數（-a 4） # 按行數分割split -l 300 large_file.txt new_file_prefix# 文件大小分割split -b 10m server.log waynelog# 對文件進行合并：使用重定向，'>' 寫入文件 , '>>' 追加到文件中cat file_prefix* > large_file

在工作中的日常：用戶信息，log日志緩存，等都是大文件

補充：linecache模塊

當讀取一個文件的時候，python會嘗試從緩存中讀取文件內容，優化讀取速度，提高效率，減少了I/O操作

linecache.getline(filename, lineno) 從文件中讀取第幾行，注意：包含換行符
linecache.clearcache() 清除現有的文件緩存
linecache.checkcache(filename=None) 檢查緩存內容的有效性，可能硬盤內容發生改變，更新了，如果沒有參數，將檢查緩存中的所有記錄(entries)

import linecachelinecache.getline(linecache.__file__, 8)

題目：
現給一個文件400M（該文件是由/etc/passwd生成的），統計其中root字符串出現的次數

import timesum = 0start = time.time()with open('file', 'r') as f:for i in f:new = i.count('root')sum+=newend = time.time()print(sum, end-start)

注:有時候這個程序比c,shell快10倍，原因就是，python會讀取cache中的數據，使用緩存在內部進行優化，減少i/o，提高效率

References : How to read a large file

轉載于:https://www.cnblogs.com/panlq/p/10618852.html

總結

以上是生活随笔為你收集整理的Read a large file with python的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Redis数据结构：字典（hash表）
下一篇： Codeforces 500