gzip格式分析与识别
“?介紹gzip格式,識別gzip壓縮的數據流量。”
在協議分析過程中,經常會發現gzip壓縮的數據,例如在HTTP協議中,在HTTP頭中會標示,內容編碼為gzip、DEFLATE。
但是,還有很多情況,例如一些非HTTP協議,特別是私有協議中,數據同樣采用gzip壓縮,但是,流量中并未寫明數據是gzip壓縮格式,這就給分析帶來了困難。
如何解決這個困難呢?只能從數據本身著手了,需要了解gzip壓縮后數據的特征和標記,以確定哪些數據是gzip壓縮。
gzip的基礎是DEFLATE,它其實是多種壓縮文件格式的簡稱。在RFC1952中對gzip格式進行了定義。
對gzip格式的數據,通常使用zlib庫就可以解壓縮。
gzip壓縮格式的數據的識別,依靠的是gzip格式內的一些特征,gzip格式如下圖:
具體如下:
10字節的頭,包含幻數、版本號以及時間戳,對應ID1、ID2、CM、FLG、MTIME、XFL、OS;
可選的擴展頭extra? data ,如原文件名;
文件體compressed blocks,包括DEFLATE壓縮的數據;
8字節的尾注,包括CRC-32校驗和CRC32以及未壓縮的原始數據長度ISIZE。
在文件頭中,ID1和ID2分別為固定值0x1F,0x8B;而CM則定義了壓縮使用的算法,目前僅一種,即DEFLATE壓縮,對應值為0x08;FLG、MTIME、XFL、OS分別為標記、時間、可選擴展頭標記、操作系統標記。
對gzip格式的識別,依靠的就是gzip的起始3字節,因為這三個字節目前是固定的,只有我們在數據流中,發現了1F 8B 08,則表示找到了gzip編碼數據的起始了,繼續分析就簡單了。
如果想找個gzip的示例文件,那就到gzip官網去下載吧:
http://alpha.gnu.org/gnu/gzip/
目錄下的壓縮包都是gzip壓縮格式。
根據各種類型的數據標記,來確定待分析的未知數據流中的數據格式,是一項很有用的技能,希望大家能多鍛煉,多掌握,很多數據格式的標記,都可以在網絡中找到,有人已經總結好了。
長按進行關注。
總結
以上是生活随笔為你收集整理的gzip格式分析与识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HTTP协议中的chunked编码解析
- 下一篇: 车联网APP,安全设施薄弱的山寨品