當前位置：首頁 > 编程语言 > python >内容正文

python

python编码解码的过程_使用Python过程中的编码和解码

發布時間：2025/3/19 python 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 python编码解码的过程_使用Python过程中的编码和解码小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

編碼和解碼的問題糾結了我很久了，對他一直只有是是而非的理解，好像是那么回事，但是又不懂，今天終于來認真解決一下這個問題，總結一下大神們的回答，做一下筆記。

首先，我們知道，計算機中的所有數據都以二進制存在，二進制的一位有兩種不同的狀態0和1。一個字節(Byte)由8位二進制數組成，可以用來表示256種不同的狀態。將二進制序列與字符一一對應的過程就叫做編碼規則。

一、ASCII 碼

世界上最著名的編碼規則是上世紀60年代美國制定的ASCII 碼，它將英語字符與二進制位之間的關系做了統一規定。ASCII 碼規定一個字節的最高位總是0，用剩余的7位來表示英語中需要的128個字符(包括不能打出來的32個控制位)，比如空格SPACE是32(二進制00100000)。

二、非ASCII編碼

英語用128個符號編碼就夠了，但是用來表示其他語言，128個符號是不夠的。

比如，在法語中，字母上方有注音符號，它就無法用 ASCII 碼表示。于是，一些歐洲國家就決定，利用字節中閑置的最高位編入新的符號。比如，法語中的é的編碼為130(二進制10000010)。這樣一來，這些歐洲國家使用的編碼體系，可以表示最多256個符號。

但是，這里又出現了新的問題。不同的國家有不同的字母，因此，哪怕它們都使用256個符號的編碼方式，代表的字母卻不一樣。比如，130在法語編碼中代表了é，在希伯來語編碼中卻代表了字母Gimel (?)，在俄語編碼中又會代表另一個符號。但是不管怎樣，所有這些編碼方式中，0--127表示的符號是一樣的，不一樣的只是128--255的這一段。

至于亞洲國家的文字，使用的符號就更多了，漢字就多達10萬左右。一個字節只能表示256種符號，肯定是不夠的，就必須使用多個字節表達一個符號。

世界上存在著這么多種類的編碼方式，同一個二進制數字可以被解釋成不同的符號。因此，要想打開一個文本文件，就必須知道它的編碼方式，否則用錯誤的編碼方式解讀，就會出現亂碼。

如果有一種編碼，將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼，就能夠解決文件亂碼的問題，Unicode應運而生。

三、Unicode和UTF-8

準確的說，Unicode不是一種編碼，而是一個字符集。在Unicode字符集的基礎上產生的UTF-8、UTF-16和UTF-32才是真正的編碼規則。

Unicode字符集

Unicode 當然是一個很大的集合，現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣，U+0041表示英語的大寫字母A，U+4E25表示漢字嚴。

比如，漢字嚴的 Unicode 是十六進制數4E25，轉換成二進制數足足有15位(100111000100101)，也就是說，這個符號的表示至少需要2個字節。表示其他更大的符號，可能需要3個字節或者4個字節，甚至更多。

這里就有兩個嚴重的問題，第一個問題是，如何才能區別 Unicode 和 ASCII ？計算機怎么知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是，我們已經知道，英文字母只用一個字節表示就夠了，如果 Unicode 統一規定，每個符號用三個或四個字節表示，那么每個英文字母前都必然有二到三個字節是0，這對于存儲來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。

它們造成的結果是：

出現了對應Unicode 字符集的多種編碼方式，比如UTF-8、UTF-16和UTF-32。

Unicode 在很長一段時間內無法推廣，直到互聯網的出現。

UTF-8

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8 就是在互聯網上使用最廣的一種 Unicode 的實現方式。

UTF-8 最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。

UTF-8 的編碼規則很簡單，只有二條：

1)對于單字節的符號，字節的第一位設為0，后面7位為這個符號的 Unicode 碼。因此對于英語字母，UTF-8 編碼和 ASCII 碼是相同的。

2)對于n字節的符號(n > 1)，第一個字節的前n位都設為1，第n + 1位設為0，后面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的 Unicode 碼。

下表總結了編碼規則，字母x表示可用編碼的位。

Unicode碼位(16進制)對應的UTF-8編碼方式

跟據上表，解讀 UTF-8 編碼非常簡單。如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符占用多少個字節。

可以看到，UTF-8是兼容了ASCII碼的一種編碼方式。

四、Python中的編解碼

編碼(encode())：將字符轉化為計算機能夠理解，能夠存儲在內存或文件中的二進制數據。

如在Python中輸入以下代碼:

str = "簡書"

print(str)

print(type(str))

print(str.encode())

print(type(str.encode()))

輸出：

簡書

b'\xe7\xae\x80\xe4\xb9\xa6'

此過程就是將str類型的數據轉換為了二進制，為了方便顯示，通過16進制輸出了編碼后的結果。可以看到每個漢字用了六個16進制數字來表示，對應著三位Byte，三位比特就能表示最多16,777,216個字符了，能夠表示完所有漢字。

python3.6在不指定的情況下，執行編碼方式默認使用utf-8編碼，因此在print()打印漢字時，不需要再指定encoding = 'utf-8'，但在之前的版本需要指定。

注意：python中經常需要在方法(或函數)中傳輸參數(encoding='utf-8')這不一定是在對數據進行編碼，這一點要理解，不然會感覺很矛盾。這個參數是在告訴方法傳入數據的編碼方式為UTF-8(或其他方式)，方法才能對數據進行正確的解碼。

另一個使用encoding較多的方法是open，如下所示：

with open('text.txt','w') as file:

file.write('簡書')

由于txt文件對中文的默認編碼方式是GBK，Python使用默認編碼方式'UTF-8'打開后就是��這樣的亂碼，同時報錯：

File was loaded in the wrong encoding: 'UTF-8'

這時候通過指定編碼方式就能解決，通過'utf-8'方式打開并寫入文件：

with open('text.txt','w',encoding='utf-8') as file:

file.write('簡書')

解碼(decode())：將二進制數據轉化為能夠閱讀的字符的過程。

這個比較簡單，如上節通常是指定encoding='utf-8'

總結

以上是生活随笔為你收集整理的python编码解码的过程_使用Python过程中的编码和解码的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python文件命名文件夹怎么删除_py
下一篇： python老王卖西瓜_使用Python