UTF-8笔记170330
2019獨角獸企業重金招聘Python工程師標準>>>
unicode
為每種語言中的每個字符設定了統一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的
UTF-8使用可變長度字節來儲存 Unicode字符,例如ASCII字母繼續使用1字節儲存,重音文字、希臘字母或西里爾字母等使用2字節來儲存,而常用的漢字就要使用3字節。輔助平面字符則使用4字節
RFC 3629(utf-8)
UTF-8是Unicode的一種實現方式,也就是它的字節結構有特殊要求,所以我們說一個漢字的范圍是0X4E00到0x9FA5(其實還包括了中日韓的),是指unicode值,至于放在utf-8的編碼里去就是由三個字節來組織,所以可以看出unicode是給出一個字符的范圍,定義了這個字是碼值是多少,至于具體的實現方式可以有多種多樣來實現。
1字節 7位 ? 0xxxxxxx?
2字節 11位 110xxxxx 10xxxxxx?
3字節 16位 1110xxxx 10xxxxxx 10xxxxxx?
4字節 21位 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx?
5字節 26位 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx?
6字節 31位 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx?
轉載于:https://my.oschina.net/jinhengyu/blog/1571914
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的UTF-8笔记170330的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos5.4 64位下安装mysq
- 下一篇: 老外常说的“highsandlows”是