python爬取新闻网站标题_python如何正确抓取网页标题
有一個簡單的錯誤。HTML文件不能用正則表達式parse,因為他的文法比正則表達式高級,具體原因參考這里。
推薦解析這種HTML用一些第三方庫,例如mechanize
我的代碼如下:import mechanize
import cookielib
if __name__=='__main__':
br = mechanize.Browser()
br.set_cookiejar(cookielib.LWPCookieJar()) # Cookie jar
br.set_handle_equiv(True) # Browser Option
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open("http://apple.com")
print br.title()
輸出為Apple
對于mechanize的詳細使用,參考這里
安裝mechanize,就easy_install一下就好。
總結
以上是生活随笔為你收集整理的python爬取新闻网站标题_python如何正确抓取网页标题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三角函数π/2转化_【高中数学说课】三角
- 下一篇: java war包合并,使用maven