當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

PYTHON-进阶-编码处理小结

發(fā)布時(shí)間：2023/12/2 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 PYTHON-进阶-编码处理小结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

開始

用python處理中文時(shí)，讀取文件或消息，http參數(shù)等等

一運(yùn)行，發(fā)現(xiàn)亂碼(字符串處理，讀寫文件，print)

然后，大多數(shù)人的做法是，調(diào)用encode/decode進(jìn)行調(diào)試，并沒有明確思考為何出現(xiàn)亂碼

所以調(diào)試時(shí)最常出現(xiàn)的錯(cuò)誤

錯(cuò)誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

錯(cuò)誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decodereturn codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

首先

必須有大體概念，了解下字符集，字符編碼

ASCII?|?Unicode?|?UTF-8?| 等等

字符編碼筆記：ASCII，Unicode和UTF-8

淘寶搜索技術(shù)博客-中文編碼雜談

str 和 unicode

str和unicode都是basestring的子類

所以有判斷是否是字符串的方法

def is_str(s):return isinstance(s, basestring)

str和unicode 轉(zhuǎn)換

decode?文檔

encode?文檔

str -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str

區(qū)別

str是字節(jié)串，由unicode經(jīng)過編碼(encode)后的字節(jié)組成的

聲明方式

s = '中文' s = u'中文'.encode('utf-8')>>> type('中文') <type 'str'>

求長(zhǎng)度(返回字節(jié)數(shù))

>>> u'中文'.encode('utf-8') '\xe4\xb8\xad\xe6\x96\x87' >>> len(u'中文'.encode('utf-8')) 6

unicode才是真正意義上的字符串，由字符組成

聲明方式

s = u'中文' s = '中文'.decode('utf-8') s = unicode('中文', 'utf-8')>>> type(u'中文') <type 'unicode'>

求長(zhǎng)度(返回字符數(shù)),在邏輯中真正想要用的

>>> u'中文' u'\u4e2d\u6587' >>> len(u'中文') 2

結(jié)論

搞明白要處理的是str還是unicode, 使用對(duì)的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u'中文', unicode) True >>> isinstance('中文', unicode) False>>> isinstance('中文', str) True >>> isinstance(u'中文', str) False

簡(jiǎn)單原則：不要對(duì)str使用encode，不要對(duì)unicode使用decode (事實(shí)上可以對(duì)str進(jìn)行encode的，具體見最后，為了保證簡(jiǎn)單，不建議)

>>> '中文'.encode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)>>> u'中文'.decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decodereturn codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

不同編碼轉(zhuǎn)換,使用unicode作為中間編碼

#s是code_A的str s.decode('code_A').encode('code_B')

文件處理,IDE和控制臺(tái)

處理流程，可以這么使用，把python看做一個(gè)水池，一個(gè)入口，一個(gè)出口

入口處，全部轉(zhuǎn)成unicode, 池里全部使用unicode處理，出口處，再轉(zhuǎn)成目標(biāo)編碼(當(dāng)然，有例外，處理邏輯中要用到具體編碼的情況)

讀文件外部輸入編碼，decode轉(zhuǎn)成unicode處理(內(nèi)部編碼，統(tǒng)一unicode)encode轉(zhuǎn)成需要的目標(biāo)編碼寫到目標(biāo)輸出(文件或控制臺(tái))

IDE和控制臺(tái)報(bào)錯(cuò)，原因是print時(shí)，編碼和IDE自身編碼不一致導(dǎo)致

輸出時(shí)將編碼轉(zhuǎn)換成一致的就可以正常輸出

>>> print u'中文'.encode('gbk') �� >>> print u'中文'.encode('utf-8') 中文

建議

規(guī)范編碼

統(tǒng)一編碼，防止由于某個(gè)環(huán)節(jié)產(chǎn)生的亂碼

環(huán)境編碼，IDE/文本編輯器, 文件編碼，數(shù)據(jù)庫(kù)數(shù)據(jù)表編碼

保證代碼源文件編碼

這個(gè)很重要

py文件默認(rèn)編碼是ASCII, 在源代碼文件中，如果用到非ASCII字符，需要在文件頭部進(jìn)行編碼聲明?文檔

不聲明的話，輸入非ASCII會(huì)遇到的錯(cuò)誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character '\xd6' in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

聲明方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部聲明coding=utf-8, a = '中文' 其編碼為utf-8

若頭部聲明coding=gb2312, a = '中文' 其編碼為gbk

so, 同一項(xiàng)目中所有源文件頭部統(tǒng)一一個(gè)編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關(guān))

在源代碼用作處理的硬編碼字符串，統(tǒng)一用unicode

將其類型和源文件本身的編碼隔離開, 獨(dú)立無依賴方便流程中各個(gè)位置處理

if s == u'中文': #而不是 s == '中文'pass #注意這里 s到這里時(shí)，確保轉(zhuǎn)為unicode

以上幾步搞定后，你只需要關(guān)注兩個(gè) unicode和你設(shè)定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

總結(jié)

以上是生活随笔為你收集整理的PYTHON-进阶-编码处理小结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： UTF-8、GB2312、GB18030
下一篇： python 获取系统相关编码的函数