當(dāng)前位置：首頁 > 编程语言 > java >内容正文

java

Java笔记-字符串编码与解码以及编码表原理

發(fā)布時(shí)間：2023/12/15 java 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Java笔记-字符串编码与解码以及编码表原理小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

編碼表

編碼表：是一張由字符及其對(duì)應(yīng)編碼的表

計(jì)算機(jī)只能識(shí)別二進(jìn)制數(shù)據(jù)，早期由電信號(hào)演化而來。

為了方便使用計(jì)算機(jī)，讓它可以識(shí)別各個(gè)國(guó)家的文字，就將各個(gè)國(guó)家的文字用數(shù)字來表示，并一一對(duì)應(yīng)，形成一張編碼表。

常見編碼表

ASCII表

ASCII表：英國(guó)標(biāo)準(zhǔn)信息交換碼。用一個(gè)字節(jié)的7位來表示字符，還有一個(gè)符號(hào)位。

ISO8859-1表

ISO8859-1表：拉丁碼表。歐洲碼表。用一個(gè)字節(jié)的8位表示。不支持中文。

GB2312表

GB2312表：中國(guó)的中文編碼表。

GB 2312標(biāo)準(zhǔn)共收錄6763個(gè)漢字，其中一級(jí)漢字3755個(gè)，二級(jí)漢字3008個(gè)；同時(shí)，GB 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內(nèi)的682個(gè)全角字符。

但是！對(duì)于人名、古漢語等方面出現(xiàn)的罕用字，GB 2312不能處理，這導(dǎo)致了后來GBK及GB 18030漢字字符集的出現(xiàn)。

GBK表

GBK表：中國(guó)的中文編碼表 GB2312 的升級(jí)，融合了更多的中文文字符號(hào)。

GBK 總計(jì) 23940 個(gè)碼位，共收入 21886 個(gè)漢字和圖形符號(hào)，其中漢字（包括部首和構(gòu)件）21003 個(gè)，圖形符號(hào) 883 個(gè)。

GB18030表

GB18030表：GBK的取代版本，也是中文目前的通用版本。

GB18030表：分為兩個(gè)版本 GB18030-2000表和 GB18030-2005表。

GB18030-2000收錄了27533個(gè)漢字，GB18030-2005收錄了70244個(gè)漢字。

BIG-5表

BIG-5碼：通行于臺(tái)灣、香港地區(qū)的一個(gè)繁體編碼方案，俗稱—–”大五碼”。

Unicode表

Unicode表：國(guó)際標(biāo)準(zhǔn)碼，融合了多種文字。

所有文字都用兩個(gè)字節(jié)來表示

Java語言使用的就是Unicode碼表

UTF-8表

UTF-8表：最多用三個(gè)字節(jié)來表示一個(gè)字符。

UTF-8是 Unicode 的升級(jí)版。它定義了一種”區(qū)間規(guī)則”，這種規(guī)則可以和 ASCII 編碼保持最大程度的兼容：

它將Unicode編碼為 00000000-0000007F的字符，用1字節(jié)來表示。
它將Unicode編碼為 00000080-000007FF的字符，用2字節(jié)來表示。
它將Unicode編碼為 00000800-0000FFFF的字符，用3字節(jié)來表示。

字符串的編碼與解碼

字符串編碼解碼介紹

字符串編碼：將看得懂的字符變成計(jì)算機(jī)能看懂的符號(hào)（人類看不懂）。

Java字符串編碼：

方法名稱使用

byte[] getBytes()

使用當(dāng)前平臺(tái)的默認(rèn)字符集將此 String 編碼為 byte 序列，并將結(jié)果存儲(chǔ)到一個(gè)新的 byte 數(shù)組中。

Java字符串解碼：

方法名稱使用

String String(byte[] bytes)

通過使用當(dāng)前平臺(tái)默認(rèn)字符集，解碼指定的 byte 數(shù)組，構(gòu)造一個(gè)新的 String。

其中當(dāng)前平臺(tái)，指的是當(dāng)前操作系統(tǒng)。

我的是WIN10系統(tǒng)，默認(rèn)的是GBK編碼表。

字符串編碼解碼演示

public static void main(String[] args) {// 使用GBK編碼，上面介紹過了，我的默認(rèn)GBKString str = "鋤禾日當(dāng)午,汗滴禾下土";byte[] bs = str.getBytes();for (int i = 0; i < bs.length; i++) {System.out.print(bs[i] + " ");}System.out.println();// 使用GBK解碼String newStr = new String(bs);System.out.println(newStr); } //運(yùn)行結(jié)果為： //-77 -6 -70 -52 -56 -43 -75 -79 -50 -25 44 -70 -71 -75 -50 -70 -52 -49 -62 -51 -63 //鋤禾日當(dāng)午,汗滴禾下土//其中每?jī)蓚€(gè)負(fù)數(shù)組成一個(gè)漢字，由于我的逗號(hào)為英文逗號(hào)，是44，可以刨除 //（-77 -6）鋤（-70 -52）禾 ...

在 GBK 中，所有漢字被拆分成兩個(gè)字節(jié)，第一個(gè)字節(jié)肯定是負(fù)數(shù)，第二個(gè)字節(jié)不一定。所以用 new String(byte[] bytes) 解碼時(shí)，看到第一個(gè)是負(fù)數(shù)的字節(jié)，就自動(dòng)將后面一個(gè)字節(jié)跟前面的字節(jié)，放到一起處理。

字符串亂碼問題

方法名稱作用
byte[] getBytes(String charsetName) 使用指定編碼表去編碼
字符串亂碼演示：

public static void main(String[] args) {try {String str = "鋤禾日當(dāng)午,汗滴禾下土";byte[] bs = str.getBytes("Iso8859-1");System.out.println(Arrays.toString(bs));} catch (UnsupportedEncodingException e) {e.printStackTrace();} } //結(jié)果： //[63, 63, 63, 63, 63, 44, 63, 63, 63, 63, 63]//63在ASCII中對(duì)應(yīng)'?'所以編碼失敗，因?yàn)閕so8859-1不支持中文！//擴(kuò)展1：iso不區(qū)分大小寫 //擴(kuò)展2：異常名稱UnsupportedEncodingException： // 不被支持的編碼名稱 // 也就是怕你把編碼名稱給寫錯(cuò)了public static void main(String[] args) {try {String str = "鋤禾日當(dāng)午,汗滴禾下土";//編碼 UTF-8byte[] bs = str.getBytes("UTF-8");System.out.println(Arrays.toString(bs));//解碼當(dāng)前系統(tǒng)默認(rèn) GBKString errorStr = new String(bs);System.out.println(errorStr);//解碼我們來指定 UTF-8String correctStr = new String(bs, "UTF-8");System.out.println(correctStr);} catch (UnsupportedEncodingException e) {e.printStackTrace();} }//結(jié)果： //[-23, -108, -124, -25, -90, -66, -26, -105, -91, -27, -67, -109, -27, -115, -120, 44, -26, -79, -105, -26, -69, -76, -25, -90, -66, -28, -72, -117, -27, -100, -97] //閿勭鏃ュ綋鍗?,姹楁淮紱句笅鍦? //鋤禾日當(dāng)午,汗滴禾下土

亂碼原因：
字符串編碼與解碼所依據(jù)的編碼表不一致！導(dǎo)致了碼表轉(zhuǎn)換！統(tǒng)一解碼編碼表即可解決。

總結(jié)

以上是生活随笔為你收集整理的Java笔记-字符串编码与解码以及编码表原理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Flash设计制作“太暴力了”搞笑QQ表
下一篇： windows中怎么将swf格式转换为M