[Python爬虫] 之十二:Selenium +phantomjs抓取中的url编码问题
最近在抓取活動樹網(wǎng)站 (http://www.huodongshu.com/html/find.html) 上數(shù)據(jù)時發(fā)現(xiàn),在用搜索框輸入中文后,點擊搜索,phantomjs抓取數(shù)據(jù)怎么也抓取不到,但是用IE驅(qū)動就可以找到,后來才發(fā)現(xiàn)了原因。
例如URL:?http://www.huodongshu.com/html/find_search.html?search_keyword=數(shù)字, phantomjs抓取的內(nèi)存中url變成了http://www.huodongshu.com/html/find_search.html?search_keyword=??,導致搜索的結(jié)果為0,就是沒有搜索到。
在搜索框輸入英文是沒有問題,奇怪輸入中文就就變成了??,后來在活動行(http://www.huodongxing.com/)網(wǎng)站上直接輸入數(shù)字后,變成了%E6%95%B0%E5%AD%97
后來就想如果把對應(yīng)的中文轉(zhuǎn)換成%E6%95%B0%E5%AD%97 這樣的編碼,phantomjs能不能找到呢,比如:
Url='http://www.huodongshu.com/html/find_search.html?search_keyword=%E6%95%B0%E5%AD%97',結(jié)果一測試果然可以找到,因此在用phantomjs抓取數(shù)據(jù)是,先把搜索中文關(guān)鍵字轉(zhuǎn)換成url編碼就解決問題了。
具體有兩個方法,具體如下:
?
結(jié)果:
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/shaosks/p/6703951.html
總結(jié)
以上是生活随笔為你收集整理的[Python爬虫] 之十二:Selenium +phantomjs抓取中的url编码问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UNITY 多SCENE加载与编辑
- 下一篇: Springmvc的helloworld