[python3 - TroubleShooting] requests爬取中文网站后直接print,以及保存csv乱码
生活随笔
收集整理的這篇文章主要介紹了
[python3 - TroubleShooting] requests爬取中文网站后直接print,以及保存csv乱码
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
問題:
- page = requests.get().text返回的中文不管是直接print,還是保存進csv都出現了亂碼
背景:
- 我爬取的網站head里定義了charset=utf-8
- 本地windows系統默認編碼是gbk
嘗試:
- writerow()報錯 -?UnicodeEncodeError: 'gbk' codec can't encode character '\xe6' in position 0: illegal multibyte sequence
- 報錯同上
- print/csv亂碼1
- print/csv亂碼1
- print/csv亂碼2
- print亂碼2/csv亂碼3
- print正常顯示/csv亂碼4
- 都正常顯示
- 都正常顯示
結論:
- 不要自己想網頁是用什么編碼,直接用requests.get()返回的編碼,我這個例子中的網站其實用的是ISO-8859-1編碼。。。
- csv寫入的時候,默認編碼就是windows的編碼,也就是說一般中文系統的電腦,要寫入中文的話,不需要指定encoding
轉載于:https://www.cnblogs.com/break-dawnn/p/9044075.html
總結
以上是生活随笔為你收集整理的[python3 - TroubleShooting] requests爬取中文网站后直接print,以及保存csv乱码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VirtualBox安装及Linux基本
- 下一篇: Outlook2013修改数据文件默认存