生活随笔
收集整理的這篇文章主要介紹了
58同城字体加密-多套字体文件
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
其實字體加密不難,我剛開始接觸字體加密的時候應該和大部分人一樣感到腦殼疼,這無聊的開發,為啥要寫這么難,在我寫過幾個網站的字體反爬后就感覺并沒有那么難 ,感覺字體反爬都是一個套路,我們以58同城二手車來介紹,(還有汽車之家的論壇,起點中文網(比較簡單),大眾點評,自如)
1, 首先我們看他源碼
汽車的價格被加密了,我們首先想的就是字體加密,
2.查找加密文件
可以看到字體文件被base64加密成一長串字符串了,我們用正則吧字符串取下來 用base64解碼成woff文件,然后再轉化為xml文件供我們觀察
3.通過xml文件,我們可以看到字體都是坐標,都是畫出來的,我們放到專門的軟件吧文件畫出來
可以看到就是0-9的數字,多請求幾次進行對比,我們發現他有相同的 也有不同點
相同:都是0-9,同一個數字的自型是一樣的,也就是坐標
不同:同一個數字代表他的name不同
4 破解
我們通過一個字體文件 得出映射關系 這個關系是 ,數字和字形的關系
然后每次請求獲取的字體文件 解析出 name屬性,和字形 通過字形和你設定好的關系進行對比 找到數字
再通過name 在源網頁中進行替換
這是我根據一個字體文件得到的,hex是字形的md5加密后的值
到這差不多就結束了 ,其實大部分都是這種的 簡單的咱就不說了,還有那種沒有任何規律的就直接用ocr識別吧 (我發布的文章里面也有,如果有好辦法要教教我哦)
全部代碼如下(代碼很丑,沒整理,湊活吧)
import requests
import base64
import re
from fontTools
.ttLib
import TTFont
from lxml
import etree
from hashlib
import md5
url
= 'https://bj.58.com/baoma/?listfrom=dspadvert&PGTID=0d3036e0-0000-1e16-19b4-92f3e56b847f&ClickID=100#mainCon'
headers
= {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}
ret
= requests
.get
(url
=url
,headers
=headers
)
ret
.encoding
='utf8'with open('58.html','w',encoding
='utf8') as f
:f
.write
(ret
.text
)with open('58.html','r',encoding
='utf8') as f
:ret
= f
.read
()
ba64
= re
.findall
('base64,(.*?)\'\) forma',ret
)[0]
b
= base64
.b64decode
(ba64
)
with open('1.woff','wb') as f
:f
.write
(b
)
base_font
={'font':[{'name':'-','value':'3','hex':'f9d6f8bfb0257137ad304bcae1009022'},{'name':'时','value':'0','hex':'79a6e23d10c68d14e4ec507e6b02bbf2'},{'name':'%','value':'5','hex':'7125656f5dd35120031671deec325dbe'},{'name':'/','value':'7','hex':'927faa2e53d85d841839ec58daddb138'},{'name':'万','value':'8','hex':'73b0b18ef35ebe5df363bccf4ea5e356'},{'name':'+','value':'2','hex':'6d6f25ae791948b9b1b6538c4fd5a09b'},{'name':'¥','value':'1','hex':'f3980be01c0bf2e821672497b680f59d'},{'name':'元','value':'6','hex':'7c26f89c45f85da47fdb94e6edec97b7'},{'name':'起','value':'4','hex':'e32ccaa22e9bfc82e927c8c4c5c7487e'},{'name':'折','value':'9','hex':'415e4dc11caaf995d552a41238fed31d'},
]}
fot
= {'uni002D':'-','uni65F6':'时','uni0025':'%','uni002F':'/','uni4E07':'万','uni002B':'+','uni00A5':'¥','uni5143':'元','uni8D77':'起','uni6298':'折',
}
dic
= {}
font
= TTFont
('1.woff')
font
.saveXML
('1.xml')
font_cmap
= font
['cmap'].getBestCmap
()
uni_list
= font_cmap
.values
()
print(uni_list
)
font_n
= TTFont
('1.woff')
for i
in uni_list
:f
= font_n
['glyf'].glyphs
.get
(i
).dataglpyh
= md5
(f
).hexdigest
()for j
in base_font
.get
('font'):if j
.get
('hex')==glpyh
:dic
[fot
[i
]]=j
['value']
print(dic
)with open('58.html','r',encoding
='utf8') as f
:ret
= f
.read
()
for i
in dic
:ret
= ret
.replace
(i
,dic
[i
])
page_html
= etree
.HTML
(ret
)
lis
= page_html
.xpath
('//*[@id="list"]/ul/li/div')for li
in lis
:name
= ('-').join
(li
.xpath
('../div[1]/a//text()')).replace
('\n','').replace
('\t','').replace
(' ','')print(name
)
總結
以上是生活随笔為你收集整理的58同城字体加密-多套字体文件的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。