當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

UTF-8&Unicode,0xC0和0x80是什么？

發(fā)布時(shí)間：2024/8/26 综合教程 35 生活家

生活随笔收集整理的這篇文章主要介紹了 UTF-8&Unicode,0xC0和0x80是什么？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載：http://blog.sina.com.cn/s/blog_7c4f3b160101dv4p.html

一個(gè)字符串長(zhǎng)度統(tǒng)計(jì)的代碼,如下

 
int calcLen(const char* _str)
{
        int n = 0;
        char ch = 0;
        while ((ch = *_str))
        {
            CC_BREAK_IF(! ch);
            if (0x80 != (0xC0 & ch))
            {
                ++n;
            }
            ++_str;
        }
        return n;   
}

其中關(guān)于0x80!= (0xC0& ch)的判斷, 百思不得其解,按照ansi表的標(biāo)準(zhǔn)解釋來(lái)看, 0~127位足以表達(dá)對(duì)字符數(shù)目的統(tǒng)計(jì),也就是說(shuō)用如下代碼
(0x80 & ch) == 0足以判斷這個(gè)ch是不是一個(gè)字符, 因此那種復(fù)雜的寫(xiě)法理論上不只是做ansi字符的判斷。

0xC0也就是1100, 這個(gè)&運(yùn)算判斷的是下一個(gè)ch的頭兩位是什么字符, 因?yàn)?1能完全反映出本來(lái)的數(shù)字
對(duì)于普通的ansi字符(非擴(kuò)展集)而言, 他的頭一位一定是0(0000 0000 ~ 0111 1111)
對(duì)于UTF-8字符而言, 因?yàn)閁TF-8編碼是一種多字節(jié)序的形式, 他采用如下的數(shù)字序規(guī)律

所有10打頭的在UTF-8里面, 表示都是一個(gè)多字節(jié)序的子序

兩個(gè)UTF-8字符, 打頭則是以110開(kāi)始, 后面跟10XXXXXX, 10YYYYYY表示接下來(lái)的字符
三個(gè)則是1110開(kāi)始, 后面跟三個(gè)10XXXXXX來(lái)表示字符

所以在計(jì)算字符串個(gè)數(shù)的時(shí)候, 只需要判斷當(dāng)前字符是不是等于10開(kāi)頭,不等于10開(kāi)頭就一定是一個(gè)單字符或者一個(gè)多字符, 然后計(jì)數(shù)器+1即可

具體有興趣的童鞋可參閱http://stackoverflow.com/questions/3911536/utf-8-unicode-whats-with-0xc0-and-0x80

總結(jié)

以上是生活随笔為你收集整理的UTF-8&Unicode,0xC0和0x80是什么？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ElasticSearch 字段类型介绍
下一篇：摩托车齿轮油多久换(uy125齿轮油多久

综合教程

UTF-8&amp;Unicode,0xC0和0x80是什么？

總結(jié)

UTF-8&Unicode,0xC0和0x80是什么？