了解 sdhash
SDHASH
1.???????sdhash : similarity digests hash (相似性摘要散列)
automate content triage . 用于自動內容分類
此處的摘要(digest)指的是:Metadata--元數(shù)據(jù):元數(shù)據(jù)指的是計算機用來標識文件的一些附加信息,例如文件名,文件類型,文件時間戳,文件在物理存儲介質的數(shù)據(jù)分布等。
官網關于sdhash的介紹(Google翻譯):
sdhash是一個工具,它允許兩個任意的數(shù)據(jù)塊基于常見的字符串進行相似性比較二進制數(shù)據(jù)。它被設計為在分類和初始調查階段提供快速結果。它已經在從2010年開始積極開發(fā),明確目標是變得快速,可擴展和可靠。
實際用處:
有兩個一般類問題,其中sdhash可以提供顯著的好處 - 片段識別和版本相關。
在片段識別中,我們在較大的數(shù)據(jù)內搜索較小的數(shù)據(jù)片段(“needle-in-a-haystack”)。
例如:
?塊與文件相關:給定一塊數(shù)據(jù)(磁盤塊/網絡包/ RAM頁面/等),我們可以搜索一個引用文件集合來識別塊是否來自其中的任何一個。
?文件與RAM /磁盤映像:給定文件和目標映像,我們可以有效地確定是否有任何文件可以在磁盤映像上找到(包括釋放存儲)。
在版本關聯(lián)中,我們感興趣的是關聯(lián)大小可比較的數(shù)據(jù)對象(文件),因此類似的對象可以被視為版本。這是兩個基本方案,其中這是有用的 - 識別相關文檔和識別代碼版本。
?
Digest generation(摘要生成):
The output encodes the following pieces of information, separatedby colons: magic number, version,length of file name, file name, hash functionused to hash features (sha1), size of constituent Bloom filters in bytes,number of subhashes per feature,bit mask used to derive the subhashes, numberof features per filter, number of filters in the digest,number of features inthe last filter, and base64-encoded sequence of filters.
翻譯:輸出將編碼以冒號分隔的以下信息:幻數(shù),版本,文件名長度,文件名,用于散列特征的散列函數(shù)組成的布隆過濾器的大小,每個特征的子散列數(shù),用于導出子散列的位掩碼,每個過濾器的特征數(shù)目,摘要中的過濾器數(shù)目 最后一個過濾器中的特征數(shù),以及過濾器的base64編碼序列。
The size of a similarity digest is proportional to the size of thedata targets. The in-memory sdhash representation is, on average, 2.6% of thesize of the target (approximately 256 bytes of digest per 9.5 KB of data).After the base64 encoding, it expands to about 3.6% on disk.
相似性摘要的大小與數(shù)據(jù)目標的大小成比例。 內存中sdhash表示平均為目標大小的2.6%(每9.5 KB數(shù)據(jù)大約256字節(jié)的摘要)。 在base64編碼之后,它在磁盤上擴展到大約3.6%。
傳送門:http://roussev.net/sdhash/sdhash.html
總結
- 上一篇: 关于 WPF Loading初始界面的实
- 下一篇: struts2.1.8,hibernat