當(dāng)前位置：首頁 > 编程语言 > java >内容正文

java

Java字符编码的转化问题

發(fā)布時間：2025/3/20 java 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Java字符编码的转化问题小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

概述：

? 我想字符串的編碼問題的確會困擾到很多開發(fā)者，我最近也是被困擾到了。

? 問題是這樣的，我們通過二維碼掃描來獲得二維碼中的信息。但是，我們的二維碼的產(chǎn)生過程卻是“多樣化”的。即在產(chǎn)生二維碼的時候是以不同的字符串編碼類型進(jìn)行編碼的。比如，GBK、GB2312、UTF-8等等。而這些不同的編碼類型會產(chǎn)生不同的字節(jié)。在Java中，GBK和GB2312都是1個漢字占2個字節(jié)，UTF-8是1個漢字占3個字節(jié)，而ISO編碼則是1上漢字1個字節(jié)。這樣一來，我們在掃描二維碼的時候就會出現(xiàn)一些“陰陽怪氣”的亂碼字符。

? 這里我們是開發(fā)二維的掃描，而二維碼的生成則在來自不同的產(chǎn)商。

我的前期實(shí)驗(yàn)：

??系統(tǒng)字符格式：UTF-8

? 字符串"中國"的GB2312編碼字節(jié)數(shù)組bs_gb和UTF-8編碼字節(jié)數(shù)組bs_utf
? ??byte[] bs_gb = {-42, -48, -71, -6};
? ??byte[] bs_utf = {-28, -72, -83, -27, -101, -67};

? 實(shí)驗(yàn)步驟：

? ??1.首先對bs_gb分別使用GB2312編碼和UTF-8編碼轉(zhuǎn)化為一個中間結(jié)果：
? ? ??String gbStr1 = new String(bs_gb, "GB2312");
? ? ??String utfStr1 = new String(bs_gb, "UTF-8");
? ? ??結(jié)果：
? ? ??中國
? ? ???й?

? ??2.對utfStr1進(jìn)行GB2312編碼，實(shí)現(xiàn)從 GB2312編碼 -> UTF-8編碼 -> GB2312編碼的過程
? ? ??String gbStr2 = new String(utfStr1.getBytes("UTF-8"), "GB2312");
? ? ??結(jié)果：錕叫癸拷
??
? ??3.對bs_utf分別使用GB2312編碼和UTF-8編碼轉(zhuǎn)化為一個中間結(jié)果：
? ? ??String gbStr3 = new String(bs_utf, "GB2312");
? ? ??String utfStr2 = new String(bs_utf, "UTF-8");
? ? ??結(jié)果：
? ? ??涓??
? ? ??中國
??
? ??4.對gbStr3進(jìn)行UTF-8編碼，實(shí)現(xiàn)從 UTF-8編碼 -> GB2312編碼 -> UTF-8編碼的過程
? ? ??String utfStr3 = new String(gbStr3.getBytes("GB2312"), "UTF-8");
? ? ??結(jié)果：
? ? ?????
??
? ??5.依據(jù)上面4個步驟，進(jìn)行GBK和UTF-8之間的轉(zhuǎn)換實(shí)驗(yàn)

? ??實(shí)驗(yàn)的初步結(jié)論：

? ? ? UTF-8編碼和GB2312編碼之間不能進(jìn)行直接轉(zhuǎn)化
? ? ? UTF-8編碼和GBK編碼之間，只能是UTF-8 -> GBK -> UTF-8

不同編碼字符之間的轉(zhuǎn)化：

? UTF-8轉(zhuǎn)化為Unicode

private static final char[] hexDigit = {'0','1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'};private static char toHex(int nibble) {return hexDigit[(nibble & 0xF)];}/*** 將字符串編碼成 Unicode。* @param theString 待轉(zhuǎn)換成Unicode編碼的字符串。* @param escapeSpace 是否忽略空格* @return 返回轉(zhuǎn)換后Unicode編碼的字符串。*/public static String toUnicode(String theString, boolean escapeSpace) {int len = theString.length();int bufLen = len * 2;if (bufLen < 0) {bufLen = Integer.MAX_VALUE;}StringBuffer outBuffer = new StringBuffer(bufLen);for(int x=0; x<len; x++) {char aChar = theString.charAt(x);// Handle common case first, selecting largest block that// avoids the specials belowif ((aChar > 61) && (aChar < 127)) {if (aChar == '\\') { outBuffer.append('\\'); outBuffer.append('\\');continue;} outBuffer.append(aChar);continue;}switch(aChar) {case ' ': if (x == 0 || escapeSpace)outBuffer.append('\\');outBuffer.append(' ');break; case '\t':outBuffer.append('\\');outBuffer.append('t');break; case '\n':outBuffer.append('\\');outBuffer.append('n');break; case '\r':outBuffer.append('\\');outBuffer.append('r');break; case '\f':outBuffer.append('\\');outBuffer.append('f');break; case '=': // Fall through case ':': // Fall through case '#': // Fall through case '!': outBuffer.append('\\');outBuffer.append(aChar);break;default: if ((aChar < 0x0020) || (aChar > 0x007e)) {outBuffer.append('\\');outBuffer.append('u'); outBuffer.append(toHex((aChar >> 12) & 0xF));outBuffer.append(toHex((aChar >> 8) & 0xF));outBuffer.append(toHex((aChar >> 4) & 0xF));outBuffer.append(toHex( aChar & 0xF));} else { outBuffer.append(aChar);}}} return outBuffer.toString();}

? Unicode轉(zhuǎn)化為UTF-8

/*** unicode 轉(zhuǎn)換成 utf-8* * @param theString* @return*/public static String unicodeToUtf8(String theString) {char aChar;int len = theString.length();StringBuffer outBuffer = new StringBuffer(len);for (int x = 0; x < len;) {aChar = theString.charAt(x++);if (aChar == '\\') {aChar = theString.charAt(x++);if (aChar == 'u') {// Read the xxxxint value = 0;for (int i = 0; i < 4; i++) {aChar = theString.charAt(x++);switch (aChar) {case '0':case '1':case '2':case '3':case '4':case '5':case '6':case '7':case '8':case '9':value = (value << 4) + aChar - '0';break;case 'a':case 'b':case 'c':case 'd':case 'e':case 'f':value = (value << 4) + 10 + aChar - 'a';break;case 'A':case 'B':case 'C':case 'D':case 'E':case 'F':value = (value << 4) + 10 + aChar - 'A';break;default:throw new IllegalArgumentException("Malformed \\uxxxx encoding.");}}outBuffer.append((char) value);} else {if (aChar == 't')aChar = '\t';else if (aChar == 'r')aChar = '\r';else if (aChar == 'n')aChar = '\n';else if (aChar == 'f')aChar = '\f';outBuffer.append(aChar);}} elseoutBuffer.append(aChar);}return outBuffer.toString();}

? 而對于其GB2312的編碼格式是不可以在獲得一個字符串之后再轉(zhuǎn)化成其他的編碼格式的。比如，我的一個字符串為“中國”，我把它轉(zhuǎn)成GB2312的編碼格式為：涓��，再轉(zhuǎn)成UTF-8就變成了�??

? 不過還好，對于經(jīng)過GBK和ISO-8859-1這兩種格式編碼之后的字符，再進(jìn)行UTF-8的轉(zhuǎn)化，是可以轉(zhuǎn)換回來的。如下測試：

? 結(jié)果：

總結(jié)

以上是生活随笔為你收集整理的Java字符编码的转化问题的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

字符
JAVA

上一篇：第一个Hadoop程序——WordCou
下一篇：基于ZXing的二维码，你可以这样改造它