中文乱码辨识
在軟件開發(fā)中常常會碰到中文亂碼。有時我們不知道該文件的正確編碼是什么,會使用文本編輯器(如UltraEdit)來嘗試所有可能的編碼。然而,亂碼本身也有一定的規(guī)律,從亂碼的樣子大致可以得知正確的編碼類型。在此給出各種編碼的字符串被錯誤解析時的樣子。
以下面語句為例:
這是一個字符集測試,作者為Harttle。
以UTF-8編碼
以下列編碼解析的顯示結果:
-
BIG-5
餈口口銝€銝蕓?蝚阡?瘚口?嚗口??口蛹Harttle?? -
ASCII
???????????????????????????????????????Harttle??? -
GBK
榪欐槸涓€涓瓧絎﹂泦嫻嬭瘯錛屼綔鑰呬負Harttle銆? -
Unicode
??????鯩詎??貼??薀??牡瑴敬胣�
以GBK編碼
以下列編碼解析的顯示結果:
-
BIG-5
涴岆珨跺趼睫摩聆彸ㄛ釬氪峈Harttle﹝ -
UTF8
����?���?������?�����?Harttle�� -
Unicode
?????????�?慈瑲汴?� -
ASCII
??????????????????????????Harttle??
以Unicode編碼
以下列編碼解析的顯示結果:
-
BIG-5
?/f口N*NW[&?Km? 口\O:NH口a口r口t口t口l口e口0 -
UTF8
'/f口N*NW[&{lKm? �\O�:NH口a口r口t口t口l口e口0 -
UTF32
����������� -
GBK
購/f口N*NW[&{茤Km諎 口\O€:NH口a口r口t口t口l口e口0
規(guī)律
錯誤地選擇ASCII顯示時,問號居多,ASCII字符255個也很容易識別。
錯誤地選擇UTF8、UTF16顯示時,會出來很多��
錯誤地選擇GBK顯示時,會出現(xiàn)很多不常見的繁體字
如果你在做相似的工作,可能需要查詢代碼頁:Wikipedia-Code_page
除非注明,本博客文章均為原創(chuàng),轉載請以鏈接形式標明本文地址:?http://harttle.com/2015/05/11/unreadable-code.html
總結
- 上一篇: Alpha865qqz勒索病毒解密
- 下一篇: ansible tower(awx) C