c语言再大文件内搜索,C语言中大型磁盘文件的二进制搜索
這個問題經常在StackOverflow上重復出現,但我已經閱讀了所有以前的相關答案,并對問題略有不同.
我有一個包含4.75億行相同大小的23Gb文件,每行包含一個40個字符的哈希碼,后跟一個標識符(一個整數).
我有一個傳入的哈希碼流 – 總共有數十億個 – 對于每個傳入的哈希碼,我需要找到它并打印出相應的標識符.這項工作雖然很大,但只需要完成一次.
該文件太大,我無法讀入內存,因此我一直嘗試以下列方式使用map:
codes = (char *) mmap(0,statbuf.st_size,PROT_READ,MAP_SHARED,codefile,0);
然后我只是根據代碼中的地址使用地址算法進行二進制搜索.
這似乎開始工作得很漂亮,并在幾秒內產生幾百萬個標識符,使用100%的cpu,但是經過一些看似隨機的時間,它會減慢到爬行的速度.當我使用ps查看進程時,它已使用100%的cpu從狀態“R”更改為使用1%cpu的狀態“D”(磁盤綁定).
這是不可重復的 – 我可以在相同的數據上再次啟動該過程,并且可能在“慢速爬行”發生之前運行5秒或10秒.昨晚一次,在此之前我差不多花了一分鐘.
一切都是只讀的,我沒有嘗試任何寫入文件,我已經停止了機器上的所有其他進程(我控制).它是一臺現代的Red Hat Enterprise Linux 64位機器.
有誰知道為什么這個過程變得磁盤受限以及如何阻止它?
更新:
感謝大家的回答,以及您的想法;之前我沒有嘗試過所有各種改進,因為我想知道我是否以某種方式錯誤地使用了mmap.但答案的要點似乎是,除非我能將所有東西都擠進記憶中,否則我將不可避免地遇到問題.所以我將哈希碼的大小壓縮到沒有創建任何重復項的前導前綴的大小 – 前15個字符就足夠了.然后我將生成的文件拉入內存,并分別運行大約20億個傳入的哈希碼.
總結
以上是生活随笔為你收集整理的c语言再大文件内搜索,C语言中大型磁盘文件的二进制搜索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 摆脱贫困这本书里有没有刘亚洲
- 下一篇: 新兵丕授衔前申请退回有军籍吗新兵在授衔前