當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

了解 sdhash

發(fā)布時間：2025/3/15 编程问答 15 豆豆

生活随笔收集整理的這篇文章主要介紹了了解 sdhash 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

SDHASH

1.???????sdhash : similarity digests hash (相似性摘要散列)

automate content triage . 用于自動內容分類

此處的摘要（digest）指的是：Metadata--元數(shù)據(jù)：元數(shù)據(jù)指的是計算機用來標識文件的一些附加信息，例如文件名，文件類型，文件時間戳，文件在物理存儲介質的數(shù)據(jù)分布等。

官網關于sdhash的介紹（Google翻譯）:

sdhash是一個工具，它允許兩個任意的數(shù)據(jù)塊基于常見的字符串進行相似性比較二進制數(shù)據(jù)。它被設計為在分類和初始調查階段提供快速結果。它已經在從2010年開始積極開發(fā)，明確目標是變得快速，可擴展和可靠。

實際用處：

有兩個一般類問題，其中sdhash可以提供顯著的好處 - 片段識別和版本相關。

在片段識別中，我們在較大的數(shù)據(jù)內搜索較小的數(shù)據(jù)片段（“needle-in-a-haystack”）。

例如：

?塊與文件相關：給定一塊數(shù)據(jù)（磁盤塊/網絡包/ RAM頁面/等），我們可以搜索一個引用文件集合來識別塊是否來自其中的任何一個。

?文件與RAM /磁盤映像：給定文件和目標映像，我們可以有效地確定是否有任何文件可以在磁盤映像上找到（包括釋放存儲）。

在版本關聯(lián)中，我們感興趣的是關聯(lián)大小可比較的數(shù)據(jù)對象（文件），因此類似的對象可以被視為版本。這是兩個基本方案，其中這是有用的 - 識別相關文檔和識別代碼版本。

Digest generation(摘要生成):

The output encodes the following pieces of information, separatedby colons: magic number, version,length of file name, file name, hash functionused to hash features (sha1), size of constituent Bloom filters in bytes,number of subhashes per feature,bit mask used to derive the subhashes, numberof features per filter, number of filters in the digest,number of features inthe last filter, and base64-encoded sequence of filters.

翻譯：輸出將編碼以冒號分隔的以下信息：幻數(shù)，版本，文件名長度，文件名，用于散列特征的散列函數(shù)組成的布隆過濾器的大小，每個特征的子散列數(shù)，用于導出子散列的位掩碼，每個過濾器的特征數(shù)目，摘要中的過濾器數(shù)目最后一個過濾器中的特征數(shù)，以及過濾器的base64編碼序列。

The size of a similarity digest is proportional to the size of thedata targets. The in-memory sdhash representation is, on average, 2.6% of thesize of the target (approximately 256 bytes of digest per 9.5 KB of data).After the base64 encoding, it expands to about 3.6% on disk.

相似性摘要的大小與數(shù)據(jù)目標的大小成比例。內存中sdhash表示平均為目標大小的2.6％（每9.5 KB數(shù)據(jù)大約256字節(jié)的摘要）。在base64編碼之后，它在磁盤上擴展到大約3.6％。

傳送門：http://roussev.net/sdhash/sdhash.html

總結

以上是生活随笔為你收集整理的了解 sdhash的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

sdhash

上一篇：关于 WPF Loading初始界面的实
下一篇： struts2.1.8,hibernat