python咖啡名称提取_(转)Python中文全攻略
插入數據庫時,總是空,我做了如何操作,就好了。數據是采集過來的,程序是gbk編碼person_sql="insert into analyst(education_id,alys_name,alys_sex,alys_img,alys_inte,person_id,alys_ctime,org_id)?select * from (select (select education_id from education where education_name='"+personInfo[6].decode('gbk').encode('utf-8')+"'),'"+personInfo[1][0]+"','"+personInfo[2][0]+"','"+img+"','"+chenxin+"',convert('"+person_id+"' using gbk) as person_id,now(),(select org_id from organ where inst_code='"+inst_code+"' limit 1) org_id ) t where t.person_id not in(select person_id from analyst b where b.person_id=t.person_id);/n";(轉)解決UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 108: ordinal not in range(128)
python?2011-03-25 11:31:05?閱讀21?評論0字號:大中小
混淆了 python2 里邊的 str 和 unicode 數據類型。
0.
你需要的是讓編碼用實際編碼而不是 ascii
1.
對需要 str->unicode 的代碼,可以在前邊寫上
import sys
reload(sys)
sys.setdefaultencoding('utf8')
把 str 編碼由 ascii 改為 utf8 (或 gb18030)
2.
python3 區分了 unicode str 和 byte arrary,并且默認編碼不再是 ascii1.在Python中使用中文在Python中有兩種默認的字符串:str和unicode。在Python中一定要注意區分“Unicode字符串”和“unicode對象”的區別。后面所有的“unicode字符串”指的都是python里的“unicode對象”。事實上在Python中并沒有“Unicode字符串”這樣的東西,只有“unicode”對象。一個傳統意義上的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節流,除非解碼為unicode對象,沒有任何實際的意義。我們用“哈哈”在多個平臺上測試,其中“哈”對應的不同編碼是:1.UNICODE (UTF8-16), ???? C854;2.UTF-8,??????????????????? E59388;3.GBK,?????????????? B9FE。1.1Windows控制臺下面是在windows控制臺的運行結果:可以看出在控制臺,中文字符的編碼是GBK而不是UTF-16。將字符串s(GBK編碼)使用decode進行解碼后,可以得到同等的unicode對象。注意:可以在控制臺打印ss并不代表它可以直接被序列化,比如:向文件直接輸出ss會拋出同樣的異常。在處理unicode中文字符串的時候,必須首先對它調用encode函數,轉換成其它編碼輸出。這一點對各個環境都一樣??偨Y:在Python中,“str”對象就是一個字節數組,至于里面的內容是不是一個合法的字符串,以及這個字符串采用什么編碼(gbk, utf-8, unicode)都不重要。這些內容需要用戶自己記錄和判斷。這些的限制也同樣適用于“unicode”對象。要記住“unicode”對象中的內容可絕對不一定就是合法的unicode字符串,我們很快就會看到這種情況。總結:在windows的控制臺上,支持gbk編碼的str對象和unicode編碼的unicode對象。1.2Windows IDLE(在Shell上運行)在windows下的IDLE中,運行效果和windows控制臺不完全一致:可以看出,對于不使用“u”作標識的字符串,IDLE把其中的中文字符進行GBK編碼。但是對于使用“u”的unicode字符串,IDLE居然一樣是用了GBK編碼,不同的是,這時候每一個字符都是unicode(對象)字符!!此時len(ss) = 4。這樣產生了一個神奇的問題,現在的ss無法在IDLE中正常顯示。而且我也沒有辦法把ss轉換成正常的編碼!比如采用下面的方法:這有可能是因為IDLE本地化做得不夠好,對中文的支持有問題。建議在IDLE的SHELL中,不要使用u“中文”這種方式,因為這樣得到的并不是你想要的東西。這同時說明IDLE的Shell支持兩種格式的中文字符串:GBK編碼的“str”對象,和UNICODE編碼的unicode對象。1.3在IDLE上運行代碼在IDLE的SHELL上運行文件,得到的又是不同的結果。文件的內容是:直接運行的結果是:毫無瑕疵,相當令人滿意。我沒有試過其它編碼的文件是否能正常運行,但想來應該是不錯的。同樣的代碼在windows的控制臺試演過,也沒有任何問題。1.4Windows Eclipse在Eclipse中處理中文更加困難,因為在Eclipse中,編寫代碼和運行代碼屬于不同的窗口,而且他們可以有不同的默認編碼。對于如下代碼:#!/usr/bin/python# -*- coding: utf-8 -*-s ="哈哈"ss = u'哈哈'printrepr(s)printrepr(ss)prints.decode('utf-8').encode('gbk')printss.encode('gbk')prints.decode('utf-8')printss前四個print運行正常,最后兩個print都會拋出異常:'/xe5/x93/x88/xe5/x93/x88'u'/u54c8/u54c8'哈哈哈哈Traceback (most recent call last):File "E:/Workspace/Eclipse/TestPython/Test/test_encoding_2.py", line 13, in print s.decode('utf-8')UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)也就是說,GBK編碼的str對象可以正常打印,但是不能打印UNICODE編碼的unicode對象。在源文件上點擊“Run as”“Run”,然后在彈出對話框中選擇“Common”:可以看出Eclipse控制臺的缺省編碼方式是GBK;所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK,則可以直接打印GBK編碼的str對象,比如s。如果把源文件的編碼設置成“UTF-8”,把控制臺的編碼也設置成“UTF-8”,按道理說打印的時候應該沒有問題。但是實驗表明,在打印UTF-8編碼的str對象時,中文的最后一個字符會顯示成亂碼,無法正常閱讀。不過我已經很滿足了,至少人家沒有拋異常不是:)BTW: 使用的Eclipse版本是3.2.1。1.5從文件讀取中文在window下面用記事本編輯文件的時候,如果保存為UNICODE或UTF-8,分別會在文件的開頭加上兩個字節“/xFF/xFE”和三個字節“/xEF/xBB/xBF”。在讀取的時候就可能會遇到問題,但是不同的環境對這幾個多于字符的處理也不一樣。以windows下的控制臺為例,用記事本保存三個不同版本的“哈哈”。
打開utf-8格式的文件并讀取utf-8字符串后,解碼變成unicode對象。但是會把附加的三個字符同樣進行轉換,變成一個unicode字符,字符的數據值為“/xFF/xFE”。這個字符不能被打印。編碼的時候需要跳過這個字符。打開unicode格式的文件后,得到的字符串正確。這時候適用utf-16解碼,能得到正確的unicdoe對象,可以直接使用。多余的那個填充字符在進行轉換時會被過濾掉。打開ansi格式的文件后,沒有填充字符,可以直接使用。結論:讀寫使用python生成的文件沒有任何問題,但是在處理由notepad生成的文本文件時,如果該文件可能是非ansi編碼,需要考慮如何處理填充字符。1.6在數據庫中使用中文剛剛接觸Python,我用的數據庫是mysql。在執行插入、查找等操作時,如果運行環境使用的字符編碼和mysql不一致,就可能導致運行時的錯誤。當然,和上面看到的情況一樣,運行環境并不是關鍵因素,關鍵是查詢語句的編碼方式。如果在每次執行查詢操作時都把查詢字符串做一次編碼轉換,轉變成mysql的默認字符編碼,一樣不會遇到問題。但是這樣寫代碼也太痛苦了吧。使用如下代碼連接數據庫:self.conn = MySQLdb.connect(use_unicode =1, charset='utf8', **server)我不能理解的是既然數據庫用的默認編碼是UTF-8,我連接的時候也用的是UTF-8,為什么查詢得到的文本內容卻是UNICODE編碼(unicode對象)?這是MySQLdb庫的設置么?1.7在XML中使用中文使用xml.dom.minidom和MySQLdb類似,對生成的dom對象調用toxml方法得到的是unicode對象。如果希望輸出utf-8文本,有兩種方法:1.使用系統函數在輸出xml文檔的時候進行編碼,這是我覺得最好的方法。xmldoc.toxml(encoding=’utf-8’)xmldoc.writexml(outfile, encoding = ‘utf-8’)2.自己編碼生成在使用toxml之后可以調用encode方法對文檔進行編碼。但這種方法無法得到合適的xml declaration(xml文檔第一行中的encoding部分)。不要嘗試通過xmldoc.createProcessingInstruction來創建一個processing instraction:<?xml version=’1.0’ encoding=’utf-8’?>xml declaration雖然看起來像是,但是事實上并不是一個processing instraction。可以通下面的方法得到一個滿意的xml文件:print >> outfile,?“<?xml version=’1.0’ encoding=’utf-8’?>”
print >> outfile, xmldoc.toxml().encode(‘utf-8’)[22:]
其中第二行需要過濾掉在調用xmldoc.toxml時生成的“<?xml version=’1.0’ ?>”,它的長度是22。相面是兩種方法的用法比較:另外,在IDLE的shell中,不要用 u’中文’ 對屬性進行賦值。上面討論過,這樣得到的unicode字符串不正確。
總結
以上是生活随笔為你收集整理的python咖啡名称提取_(转)Python中文全攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mysql当前模式让不记录日志_MySQ
- 下一篇: 元气骑士没有手柄怎么解锁机器人_机器人怎