生活随笔
收集整理的這篇文章主要介紹了
判断一段文件是UTF-8编码还是GB2312的编码方式
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
分類:?算法?cpp2012-03-10 16:01?
7120人閱讀??
收藏?
舉報
null生活c
對于只包含中文和英文的文本中判斷編碼方式是非常簡單的,中文的編碼方式最常用的是GBK,字符集更大的如GBK向下兼容GB2312,其中包含的的很多一部分字符是我們在日常生活中用不到的,因此在實際中我們一般只需要區(qū)分GB2312和UTF8編碼。這里我只是提供一種可行的方法,如果判斷GBK也可以采用類似的方式首先分析一下漢字在GB2312中的編碼方式,gb2312規(guī)則漢字采用雙字節(jié)編碼其中第一字節(jié)161~247,第二字節(jié)161~254,其中含有邊界條件。而utf8的編碼方式可以看如下表示:
<span?style="font-family:Arial,?Verdana,?sans-serif;"><span?style="white-space:?normal;">?? </span></span>??
代碼范圍
十六進(jìn)制 標(biāo)量值(scalar value)
二進(jìn)制 UTF-8
二進(jìn)制/十六進(jìn)制 注釋
000000 - 00007F 128個代碼 | 00000000 00000000 0zzzzzzz | 0zzzzzzz(00-7F) | ASCII字符范圍,字節(jié)由零開始 |
| 七個z | 七個z |
000080 - 0007FF 1920個代碼 | 00000000 00000yyy yyzzzzzz | 110yyyyy(C0-DF) 10zzzzzz(80-BF) | 第一個字節(jié)由110開始,接著的字節(jié)由10開始 |
| 三個y;二個y;六個z | 五個y;六個z |
000800 - 00D7FF 00E000 - 00FFFF 61440個代碼?[Note 1] | 00000000 xxxxyyyy yyzzzzzz | 1110xxxx(E0-EF) 10yyyyyy 10zzzzzz | 第一個字節(jié)由1110開始,接著的字節(jié)由10開始 |
| 四個x;四個y;二個y;六個z | 四個x;六個y;六個z |
010000 - 10FFFF 1048576個代碼 | 000wwwxx xxxxyyyy yyzzzzzz | 11110www(F0-F7) 10xxxxxx 10yyyyyy 10zzzzzz | 將由11110開始,接著的字節(jié)由10開始 |
這樣我們就可以由編碼方式上的差異來進(jìn)行GB2312和UTF8編碼識別,下面給出代碼
unsigned?int?countGBK(const?char?*?str)?? {?? ????assert(str?!=?NULL);?? ????unsigned?int?len?=?(unsigned?int)strlen?(str);?? ????unsigned?int?counter?=?0;?? ????unsigned?char?head?=?0x80;?? ????unsigned?char?firstChar,?secondChar;?? ?? ????for?(unsigned?int?i?=?0;?i?<?len?-?1;?++i)?? ????{?? ????????firstChar?=?(unsigned?char)str[i];?? ????????if?(!(firstChar?&?head))continue;?? ????????secondChar?=?(unsigned?char)str[i];?? ????????if?(firstChar?>=?161?&&?firstChar?<=?247?&&?secondChar>=161?&&?secondChar?<=?254)?? ????????{?? ????????????counter+=?2;?? ????????????++i;?? ????????}?? ????}?? ????return?counter;?? }?? ?? unsigned?int?countUTF8(const?char?*?str)?? {?? ????assert(str?!=?NULL);?? ????unsigned?int?len?=?(unsigned?int)strlen?(str);?? ????unsigned?int?counter?=?0;?? ????unsigned?char?head?=?0x80;?? ????unsigned?char?firstChar;?? ????for?(unsigned?int?i?=?0;?i?<?len;?++i)?? ????{?? ????????firstChar?=?(unsigned?char)str[i];?? ????????if?(!(firstChar?&?head))continue;?? ????????unsigned?char?tmpHead?=?head;?? ????????unsigned?int?wordLen?=?0?,?tPos?=?0;?? ????????while?(firstChar?&?tmpHead)?? ????????{?? ????????????++?wordLen;?? ????????????tmpHead?>>=?1;?? ????????}?? ????????if?(wordLen?<=?1)continue;??? ????????wordLen?--;?? ????????if?(wordLen?+?i?>=?len)break;?? ????????for?(tPos?=?1;?tPos?<=?wordLen;?++tPos)?? ????????{?? ????????????unsigned?char?secondChar?=?(unsigned?char)str[i?+?tPos];?? ????????????if?(!(secondChar?&?head))break;?? ????????}?? ????????if?(tPos?>?wordLen)?? ????????{?? ????????????counter?+=?wordLen?+?1;?? ????????????i?+=?wordLen;?? ????????}?? ????}?? ????return?counter;?? }?? ?? bool?beUtf8(const?char?*str)?? {?? ????<span?style="white-space:pre">??</span>unsigned?int?iGBK?=?countGBK(str);?? ????unsigned?int?iUTF8=?countUTF8(str);?? ????if?(iUTF8?>?iGBK)return?true;?? ????return?false;?? }?
總結(jié)
以上是生活随笔為你收集整理的判断一段文件是UTF-8编码还是GB2312的编码方式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。