Python爬虫中文乱码问题(爬虫乱码)
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫中文乱码问题(爬虫乱码)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在輸出內容時,出現如下圖的情況:
解決爬蟲中文亂碼的步驟 網址編碼為gbk
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">,發現網頁編碼為gbk類型
輸出結果為編碼ISO-8859-1,并不是原網頁的編碼類型。
? ? 3. 利用requests庫改變輸出結果的編碼
import requestsurl = 'https://chengdu.chashebao.com/yanglao/19077.html'response = requests.get(url) response.encoding = 'gbk' print(response.encoding)輸出結果為編碼gbk,與原網頁保持一致。
基于以上三個步驟,即可解決爬蟲中文亂碼問題。
代碼
import requestsdef get_html(url):try:response = requests.get(url)response.encoding = 'gbk' # 改變編碼print(response.encoding)html = response.textreturn htmlexcept:print('請求網址出錯')url = 'https://chengdu.chashebao.com/yanglao/19077.html' html = get_html(url) print(html)效果展示如下圖所示:
解決爬蟲中文亂碼的步驟 網址編碼為utf-8
對于有些網頁編碼為utf-8的網址,輸出事發現中文為亂碼,此時我們需要進行兩次重編碼。
response = requests.get(url, headers=headers) response.encoding = 'GBK' response.encoding = 'utf-8'解決爬蟲中文亂碼的步驟 網址編碼為gb2312
response.encoding = 'GBK'?
總結
以上是生活随笔為你收集整理的Python爬虫中文乱码问题(爬虫乱码)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VC++调试win32设置参数
- 下一篇: C/C++fflush(stdout)循