當前位置：首頁 > 编程语言 > python >内容正文

python

python全球购代码_理解python的unicode字符串

發布時間：2025/3/21 python 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 python全球购代码_理解python的unicode字符串小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基于python2.7中的字符串： unicode——》編碼encode('utf-8')——》寫入文件讀出文件——》解碼decode('utf-8')——》unicode 在使用unicode的時候，必須注意

# -*- coding:gb2312 -*-

if __name__=='__main__':

print "-------------code 1----------------"

a = "和諧b你b可愛女人"

print a

print a.find("你") #index=5,對于一般字符串,按照了

#指定的編碼方式(這里為gb2312)

#并不像unicode字符串一樣,把任何字符視為長度1,

#而是視為字節長度(5=2+2+1).

b = a.replace("愛", "喜歡")

print b

print "--------------code 2----------------"

x = "和諧b你b可愛女人"

print a.find("你")

y = unicode(x) #此處將x解碼(成字符串),如果有編碼第二參數,應該和第一行指示編碼相同

print y

print y.encode("utf-8") #若和指示編碼不一樣,則會打印亂碼

print y.encode("gb2312")

print y.find(u"你") #index=3,因為unicode字符都視為1長度

z = y.replace(u"愛", u"喜歡小")

print z.encode("utf-8")

print z.encode("gb2312")

print "---------------code 3----------------"

print y

newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯

print newy

輸出：

引用

-------------code 1----------------

和諧b你b可愛女人

和諧b你b可喜歡女人

--------------code 2----------------

和諧b你b可愛女人

???b浣????濂充??

和諧b你b可愛女人

???b浣????嬈㈠?濂充??

和諧b你b可喜歡小女人

---------------code 3----------------

和諧b你b可愛女人

utf-8版本的編碼指示行:

# -*- coding:utf-8 -*-

if __name__=='__main__':

print "-------------code 1----------------"

a = "和諧b你b可愛女人"

print a

print a.find("你") #index=7,對于一般字符串,按照了指定的編碼方式(這里為utf-8)

#并不像unicode字符串一樣,把任何字符視為長度1,

#而是視為字節長度(7=3+3+1).

b = a.replace("愛", "喜歡")

print b

print "--------------code 2----------------"

x = "和諧b你b可愛女人"

print a.find("你")#同----code 1----,index=7

y = unicode(x) #此處將x解碼(成字符串),如果有編碼第二參數,應該和第一行指示編碼相同

print "直接print::",y

print "若和指示編碼不一樣,以下兩行有一行會打印亂碼"

print "UTF-8::",y.encode("utf-8")

print "GB2312::",y.encode("gb2312")

print y.find(u"你") #index=3,因為unicode字符都視為1長度

z = y.replace(u"愛", u"喜歡小")

print "若和指示編碼不一樣,以下兩行有一行會打印亂碼"

print z.encode("utf-8")

print z.encode("gb2312")

print "---------------code 3----------------"

print "直接print::",y

newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯

print newy

輸出:

引用 -------------code 1----------------

和諧b你b可愛女人

和諧b你b可喜歡女人

--------------code 2----------------

直接print:: 和諧b你b可愛女人

-----若和指示編碼不一樣,以下兩行有一行會打印亂碼----

UTF-8:: 和諧b你b可愛女人

GB2312:: ��гb��b�?�?��

----若和指示編碼不一樣,以下兩行有一行會打印亂碼-----

和諧b你b可喜歡小女人

��гb��b��?��С?��

---------------code 3----------------

直接print:: 和諧b你b可愛女人

Traceback (most recent call last):

File "E:\JavaWork\WorkForLab\PythonStarter\src\LangProbe\__init__.py", line 28, in

newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 0-1: illegal multibyte sequence

我的解釋......還請各位指出謬誤.

筆者使用的文本物理編碼始終是utf-8,但是對指示行編碼進行了更改操作.看起來:

雖然,如果在eclipse編輯器中改掉第一行的編碼指定為一個不兼容的編碼,比如"utf-8"->"gbk",那么保存后整個文件就會出亂碼.但是這是eclipse的python編輯器的特性,如果再將事先預存的無亂碼的內容覆蓋拷回代碼中,程序仍將正常顯示和運行,而且查看文件發現物理編碼并無改變.因此,文本的物理編碼和python指示行的編碼實際上并不干擾,是兩回事.

(有趣的是,在eclipse中改變了一次指示行編碼保存后(utf8到gb2312),代碼顯示為亂碼,如果再改回,則eclipse報錯,因為按亂碼顯示的文本無法再保存,編碼已被破壞;如果再ctrl-z回退,使得指示行再為utf-8保存,文件顯示為之前不是亂碼的狀態,保存,eclipse不報錯,但是查看此時物理編碼變成了ANSI)

硬盤階段:

*.py文件編碼是utf-8,然后eclipse內置文本編輯器能夠正確地以此編碼讀入內存,交給python解釋器程序(本示例中文件編碼是utf-8).

內存中python解釋器階段:

python解釋器看到第一二行有編碼指示行,則把程序代碼編碼成該指示編碼.(本示例1中,就是gb2312;示例2中是utf-8).

內存中運行時階段

運行時遇到一般字符串,則按照解釋器的編碼讀入,print直接把此編碼字節推送OS打印.若遇到unicode字符串,無編碼參數創建的,則按照程序開頭第一行的指示編碼創建;若有編碼參數則此參數必須和第一行指示編碼參數相同或者兼容,否則程序報錯,因為python會直接把一般字符串的字節(已為指示行編碼)強行解碼為語句指定編碼來構造unicode字符,一般會失敗.相同了之后,print這個unicode字串,python將以系統(系統語義:到底是那個級別的系統)默認編碼來解碼顯示,如果系統默認編碼不支持unicode字符,比如ascii,那么顯然會出錯.

import reimport codecspattern = re.compile('%u[0-9A-Z]{4}')n = codecs.open('d:\\new.txt', 'w', 'utf-8') with open('d:\\p', 'r') as f: for l i

總結

以上是生活随笔為你收集整理的python全球购代码_理解python的unicode字符串的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql lisensce_Linux
下一篇： python将索引升序_程序在Pytho