单机海量哈希去重算法
生活随笔
收集整理的這篇文章主要介紹了
单机海量哈希去重算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
硬盤最好是2個,避免讀寫沖突。 第二個空硬盤當作平坦空間用,用來標記重復值,而不是把哈希值從A盤復制出來。
直接用Hadoop行不行~
哈希值是128位的,只要其中1位不同,就不是重復的。所以,不用太復雜的比較算法,只要抽取其中一部分進行比對就行了。比如,只比較每個哈希值的低64位。這樣能過濾掉大部分值。
之前做過去除幾百G的DNA序列中的重復序列,感覺和這個問題類似(假設你的文件一行一個hash),buffsize給的是30G(在集群上跑了一天),不知道你這個512M要跑多久...
這個得用布隆過濾器
1.我覺得這類問題出現頻率很高的,比如面試,筆試題中,所以一般Google一把,都能找到比較詳細的答案的。2.hash去重應該可以用這個算法Bloom Filter
直接用Hadoop行不行~
哈希值是128位的,只要其中1位不同,就不是重復的。所以,不用太復雜的比較算法,只要抽取其中一部分進行比對就行了。比如,只比較每個哈希值的低64位。這樣能過濾掉大部分值。
之前做過去除幾百G的DNA序列中的重復序列,感覺和這個問題類似(假設你的文件一行一個hash),buffsize給的是30G(在集群上跑了一天),不知道你這個512M要跑多久...
這個得用布隆過濾器
1.我覺得這類問題出現頻率很高的,比如面試,筆試題中,所以一般Google一把,都能找到比較詳細的答案的。2.hash去重應該可以用這個算法Bloom Filter
總結
以上是生活随笔為你收集整理的单机海量哈希去重算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 智能手机最便宜的是多少钱,智能手机最低价
- 下一篇: 神舟电脑是不是杂牌,神舟电脑质量如何?