當前位置：首頁 > 编程语言 > python >内容正文

python

爬虫1_python2

發布時間：2023/12/18 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫1_python2 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

# -*- coding: UTF-8 -*- # python2爬蟲 import urllibf = urllib.urlopen("http://www.itcast.cn/") print f.readline() # 讀取html頁面的第一行 print f.read() # ，讀取源代碼，該網址源代碼為utf-8格式 # read(),readline(),readlines(),fileno(),close(),這些使用方法與文件對象完全一樣 print f.info() # 獲取網頁所在服務器的頭部信息 print f.getcode() # 獲取網頁狀態碼 print f.geturl() # 返回請求的url f.close() # 打開文件后，記得一定關閉防止內存沒有回收，后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode() # 網頁狀態碼 # 200正常訪問 301重定向 # 302臨時重定向（不常見） 404網頁不存在 403禁止訪問 500服務器忙，無響應，過會才行 # HTTP權威指南，專門介紹http協議，Web開發和服務器端開發方向必備url = 'http://www.163.com/' html = urllib.urlopen(url) # 打開網頁 print html.read().decode('gbk').encode('utf-8') # 該網址源代碼格式是gb2312，全部統一成gbk，然后再轉化為utf-8格式 print html.read().decode('gbk','ignore').encode('utf-8')#當一些小網站編碼混亂不規范時，可用'ignore'來幫助解決 # 總結 # urllib 簡單易用的抓取模塊 # urllib.urlopen()方法，獲得類文件對象 # read()讀取文件內容 # info()獲取網頁Header信息 # getcode()獲取網頁狀態碼 # geturl()獲取傳入的網址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG') print f.getcode() # 查看是否能打開 print f.readline() # 圖片的內容看不懂 f.close() # urlretrieve方法將url定位到的html文件下載到你的本地硬盤中。如果不指定filename，則會存為臨時文件。 urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg') url = "http://www.itcast.cn/" urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 網頁抓取，下載網頁(也可以將txt格式轉成html) urllib.urlretrieve(url, 'D:\\pachong\\download.html')

轉載于:https://www.cnblogs.com/tianqizhi/p/8528033.html

總結

以上是生活随笔為你收集整理的爬虫1_python2的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

爬虫

上一篇： PHP 如何判断当前用户已在别处登录
下一篇： Standard C Episode 8