python request url编码_Python 爬虫 (requests) 发送中文编码的 HTTP POST 请求
向往常一樣發(fā)送POST請(qǐng)求出現(xiàn)錯(cuò)誤
網(wǎng)站信息
表單頁(yè)面
結(jié)果
網(wǎng)頁(yè)使用 gb2312 編碼
使用 requests 發(fā)送 post 請(qǐng)求
In [2]: import requests
In [3]: from bs4 import BeautifulSoup as BS
In [4]: url = 'http://example.com/ip/search.asp'
In [5]: data = {
...: 'loudong': '女生九棟',
...: 'fangjian': '101-1'}
In [6]: res = requests.post(url, data=data)
In [9]: res.encoding = 'gb2312'
查詢失敗
使用 Wireshark 對(duì)比瀏覽器發(fā)送的數(shù)據(jù)和 requests 發(fā)送的數(shù)據(jù)
瀏覽器發(fā)送的 post 數(shù)據(jù)
requests 發(fā)送的 post 數(shù)據(jù)
可以看到 loudong 的值編碼后不一樣:
瀏覽器 使用 gb2312 進(jìn)行編碼
requests 使用 utf-8 進(jìn)行編碼
使用 requests 發(fā)送自己編碼后的 post 請(qǐng)求
步驟:
為 HTTP Headers 手動(dòng)加上 Content-Type: application/x-www-form-urlencoded
以字符串形式將編碼后的 post 數(shù)據(jù)傳給 requests 的 data 屬性
如果表單處理的文本:enctype 的值是 application/x-www-form-urlencoded,也是默認(rèn)值
如果表單處理的是提交文件:enctype 的值是 multipart/form-data
enctype 表示表單提交的數(shù)據(jù)的編碼方式
如果將字典傳給 requests 的 data 屬性:requests 自動(dòng)為數(shù)據(jù)進(jìn)行編碼
如果將字符串傳給 requests 的 data 屬性:requests 會(huì)直接發(fā)送字符串?dāng)?shù)據(jù)
In [12]: from urllib.parse import urlencode
# 對(duì) post 數(shù)據(jù)進(jìn)行 gb2312 編碼
In [13]: data_gb2312 = urlencode(data, encoding='gb2312')
# 在 HTTP頭部 添加 application/x-www-form-urlencoded
In [14]: headers = {
...: 'Content-Type': 'application/x-www-form-urlencoded'}
In [15]: res = requests.post(url, data=data_gb2312, headers=headers)
In [16]: res.encoding = 'gb2312'
In [17]: soup = BS(res.text, 'lxml')
In [18]: for item in soup.findAll('strong'):
...: print(item.parent.parent.text.replace('\n', ''))
...:
樓棟:女生九棟
房間號(hào)-端口號(hào):101-1
IP地址:10.0.79.2
子網(wǎng)掩碼:255.255.255.0
默認(rèn)網(wǎng)關(guān):10.0.79.1
首選DNS服務(wù)器:192.168.170.254
總結(jié)
以上是生活随笔為你收集整理的python request url编码_Python 爬虫 (requests) 发送中文编码的 HTTP POST 请求的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: git 查看自己秘钥_gitlab配置s
- 下一篇: centos6安装mysql并远程连接_