python全球购代码_理解python的unicode字符串
基于python2.7中的字符串: unicode——》編碼encode('utf-8')——》寫入文件 讀出文件——》解碼decode('utf-8')——》unicode 在使用unicode的時候,必須注意
# -*- coding:gb2312 -*-
if __name__=='__main__':
print "-------------code 1----------------"
a = "和諧b你b可愛女人"
print a
print a.find("你") #index=5,對于一般字符串,按照了
#指定的編碼方式(這里為gb2312)
#并不像unicode字符串一樣,把任何字符視為長度1,
#而是視為字節長度(5=2+2+1).
b = a.replace("愛", "喜歡")
print b
print "--------------code 2----------------"
x = "和諧b你b可愛女人"
print a.find("你")
y = unicode(x) #此處將x解碼(成字符串),如果有編碼第二參數,應該和第一行指示編碼相同
print y
print y.encode("utf-8") #若和指示編碼不一樣,則會打印亂碼
print y.encode("gb2312")
print y.find(u"你") #index=3,因為unicode字符都視為1長度
z = y.replace(u"愛", u"喜歡小")
print z.encode("utf-8")
print z.encode("gb2312")
print "---------------code 3----------------"
print y
newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯
print newy
輸出:
引用
-------------code 1----------------
和諧b你b可愛女人
5
和諧b你b可喜歡女人
--------------code 2----------------
5
和諧b你b可愛女人
???b浣????濂充??
和諧b你b可愛女人
3
???b浣????嬈㈠?濂充??
和諧b你b可喜歡小女人
---------------code 3----------------
和諧b你b可愛女人
和諧b你b可愛女人
utf-8版本的編碼指示行:
# -*- coding:utf-8 -*-
if __name__=='__main__':
print "-------------code 1----------------"
a = "和諧b你b可愛女人"
print a
print a.find("你") #index=7,對于一般字符串,按照了指定的編碼方式(這里為utf-8)
#并不像unicode字符串一樣,把任何字符視為長度1,
#而是視為字節長度(7=3+3+1).
b = a.replace("愛", "喜歡")
print b
print "--------------code 2----------------"
x = "和諧b你b可愛女人"
print a.find("你")#同----code 1----,index=7
y = unicode(x) #此處將x解碼(成字符串),如果有編碼第二參數,應該和第一行指示編碼相同
print "直接print::",y
print "若和指示編碼不一樣,以下兩行有一行會打印亂碼"
print "UTF-8::",y.encode("utf-8")
print "GB2312::",y.encode("gb2312")
print y.find(u"你") #index=3,因為unicode字符都視為1長度
z = y.replace(u"愛", u"喜歡小")
print "若和指示編碼不一樣,以下兩行有一行會打印亂碼"
print z.encode("utf-8")
print z.encode("gb2312")
print "---------------code 3----------------"
print "直接print::",y
newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯
print newy
輸出:
引用 -------------code 1----------------
和諧b你b可愛女人
7
和諧b你b可喜歡女人
--------------code 2----------------
7
直接print:: 和諧b你b可愛女人
-----若和指示編碼不一樣,以下兩行有一行會打印亂碼----
UTF-8:: 和諧b你b可愛女人
GB2312:: ��гb��b�?�?��
3
----若和指示編碼不一樣,以下兩行有一行會打印亂碼-----
和諧b你b可喜歡小女人
��гb��b��?��С?��
---------------code 3----------------
直接print:: 和諧b你b可愛女人
Traceback (most recent call last):
File "E:\JavaWork\WorkForLab\PythonStarter\src\LangProbe\__init__.py", line 28, in
newy = unicode(x,"gb2312") #如果和指示編碼行的指示不一樣的話,將報錯
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 0-1: illegal multibyte sequence
我的解釋......還請各位指出謬誤.
筆者使用的文本物理編碼始終是utf-8,但是對指示行編碼進行了更改操作.看起來:
雖然,如果在eclipse編輯器中改掉第一行的編碼指定為一個不兼容的編碼,比如"utf-8"->"gbk",那么保存后整個文件就會出亂碼.但是這是eclipse的python編輯器的特性,如果再將事先預存的無亂碼的內容覆蓋拷回代碼中,程序仍將正常顯示和運行,而且查看文件發現物理編碼并無改變.因此,文本的物理編碼和python指示行的編碼實際上并不干擾,是兩回事.
(有趣的是,在eclipse中改變了一次指示行編碼保存后(utf8到gb2312),代碼顯示為亂碼,如果再改回,則eclipse報錯,因為按亂碼顯示的文本無法再保存,編碼已被破壞;如果再ctrl-z回退,使得指示行再為utf-8保存,文件顯示為之前不是亂碼的狀態,保存,eclipse不報錯,但是查看此時物理編碼變成了ANSI)
硬盤階段:
*.py文件編碼是utf-8,然后eclipse內置文本編輯器能夠正確地以此編碼讀入內存,交給python解釋器程序(本示例中文件編碼是utf-8).
內存中python解釋器階段:
python解釋器看到第一二行有編碼指示行,則把程序代碼編碼成該指示編碼.(本示例1中,就是gb2312;示例2中是utf-8).
內存中運行時階段
運行時遇到一般字符串,則按照解釋器的編碼讀入,print直接把此編碼字節推送OS打印.若遇到unicode字符串,無編碼參數創建的,則按照 程序開頭第一行的指示編碼創建;若有編碼參數則此參數必須和第一行指示編碼參數相同或者兼容,否則程序報錯,因為python會直接把一般字符串的字節(已為指示行編碼)強行解碼為語句指定編碼來構造unicode字符,一般會失敗.相同了之后,print這個unicode字串,python將以系統(系統語義:到底是那個級別的系統)默認編碼來解碼顯示,如果系統默認編碼不支持unicode字符,比如ascii,那么顯然會出錯.
import reimport codecspattern = re.compile('%u[0-9A-Z]{4}')n = codecs.open('d:\\new.txt', 'w', 'utf-8') with open('d:\\p', 'r') as f: for l i
總結
以上是生活随笔為你收集整理的python全球购代码_理解python的unicode字符串的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql lisensce_Linux
- 下一篇: python将索引升序_程序在Pytho