java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结
中文漢字編碼知識
漢字的編碼體系主要有以下幾種:
⑴ 國標、區位、“準國標”
國標是將七千余個漢字以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行稱為一個“區”,每個區有94個“位”。一個漢字在方陣中的坐標,稱為該字的區位碼。為了與美標(ASCII)的形象碼的范圍重合,出現了“國標碼”,即將區位碼的兩個十進制數都加上32,得到該漢字的國標碼。
當需要區分國標碼和美標碼時,出現了“準國標”,即將國標碼的兩個數字各加上128,而把原來的國標碼稱為“純國標”。
GBK碼是GB碼的擴展字符編碼,對多達兩萬多的簡繁漢字進行了編碼。
BIG5碼是針對繁體漢字的漢字編碼。
⑷ HZ碼
HZ碼是在Internet上廣泛使用的一種漢字編碼,它是以“純國標”的中文與美標碼混用為方案。
⑸ ISO 2022 CJK碼
這是國際標準組織為各種語言字符制定的編碼標準。CJK是中、日、韓語的合稱。它主要在Internet中使用。
⑹ UCS和ISO 10646
UCS是由ISO 10646定義的,是其他字符集標準的一個超集,保證與其他字符集是雙向兼容的,它包含了所有已知語言的字符。
Unicode提供一種統一的字符標識方法,它是16位編碼的,具備世界各地計算機與出版行業所用字符的全部代碼。而且它的產生是以各個國家或國標字符編碼為基礎的。目前,Unicode在網絡、Windows系統和很多大型軟件中得到應用。
各種中文編碼對應的編碼區間總結
一.ascii碼編碼區間(所有中文編碼中的ascii碼編碼均一樣)
1).單字節ASCII碼:0x00-0x7F
2).擴展ASCII碼:0x80-0xFF
二.GB2312雙字節編碼區間:
高字節 ? ? ? ? ? ?低字節
0xA1-0xF7 ? ? ? ? 0xA1-0xFE
三.Big5雙字節編碼區間:
高字節 ? ? ? ? ? ?低字節
0xA1-0xF9 ? ? ? ? 0x40-0x7E
0xA1-0xF9 ? ? ? ? 0xA1-0xFE
四.GB18030(一.二.四字節)編碼區間
1).單字節ASCII編碼區間: 0x00-0x7F
2).雙字節編碼區間:
高字節 ? ? ? ? ? ?低字節
0x81-0xFE ? ? ? ? 0x40-0x7E
0x81-0xFE ? ? ? ? 0x80-0xFE
3).四字節編碼區間:
0x81308130 - 0xFE39FE39
第1,3個字節均由0x81-0xFE構成
第2,4個字節均由0x30-0x39構成
五.utf-8編碼,由1-6字節構成:0xxxxxxx
110xxxxx?10xxxxxx
1110xxxx?10xxxxxx?10xxxxxx
11110xxx?10xxxxxx?10xxxxxx?10xxxxxx
111110xx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
1111110x?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
以下為中文編碼區間(包括雙字節和三字節)
1).單字節(ASCII碼)編碼區間: 0X00-0x7E
2).雙字節漢字編碼區間:
高字節 ? ? ? ? ? ?低字節
0xC0-0xDF ? ? ? ? 0x80-0xBF
3).三字節漢字編碼區間:
一字節 ? ? ? ? ? ?二字節 ? ? ? 三字節
0xE0-0xEF ? ? ? 0x80-0xBF ? ? ?0x80-0xBF
4).四字節:無中文
5).五字節:無中文
6).六字節:無中文
UTF-8使用3字節為中文漢字編碼.
對于Windows下的utf-8文本文件,會在文件頭加上0xEF 0xBB 0xBF三個字節便于windows應用程序快速識別文本編碼。
六.GBK編碼完全兼容GB2312.
七.Unicode雙字節編碼:
中文編碼區間:0x4E00-0x9FA5
對于Windows下快速判斷文本文件是Unicode還是ANSI編碼時,如果文件的前兩個字節是0xFF和0xFE,則識別為Unicode文本。
八.中文編碼兼容順序為(從左向右兼容): GB18030-->GBK--->GB2312.
以上編碼知識為個人(www.169it.com)總結,僅供參考。
總結
以上是生活随笔為你收集整理的java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何将ThinkPad T490拆机加内
- 下一篇: 信息收集学习笔记