爬虫1_python2
生活随笔
收集整理的這篇文章主要介紹了
爬虫1_python2
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
# -*- coding: UTF-8 -*-
# python2爬蟲
import urllibf = urllib.urlopen("http://www.itcast.cn/")
print f.readline() # 讀取html頁面的第一行
print f.read() # ,讀取源代碼,該網址源代碼為utf-8格式
# read(),readline(),readlines(),fileno(),close(),這些使用方法與文件對象完全一樣
print f.info() # 獲取網頁所在服務器的頭部信息
print f.getcode() # 獲取網頁狀態碼
print f.geturl() # 返回請求的url
f.close() # 打開文件后,記得一定關閉防止內存沒有回收,后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode()
# 網頁狀態碼
# 200正常訪問 301重定向
# 302臨時重定向(不常見) 404網頁不存在 403禁止訪問 500服務器忙,無響應,過會才行
# HTTP權威指南,專門介紹http協議,Web開發和服務器端開發方向必備url = 'http://www.163.com/'
html = urllib.urlopen(url) # 打開網頁
print html.read().decode('gbk').encode('utf-8') # 該網址源代碼格式是gb2312,全部統一成gbk,然后再轉化為utf-8格式
print html.read().decode('gbk','ignore').encode('utf-8')#當一些小網站編碼混亂不規范時,可用'ignore'來幫助解決
# 總結
# urllib 簡單易用的抓取模塊
# urllib.urlopen()方法,獲得類文件對象
# read()讀取文件內容
# info()獲取網頁Header信息
# getcode()獲取網頁狀態碼
# geturl()獲取傳入的網址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG')
print f.getcode() # 查看是否能打開
print f.readline() # 圖片的內容看不懂
f.close()
# urlretrieve方法將url定位到的html文件下載到你的本地硬盤中。如果不指定filename,則會存為臨時文件。
urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg')
url = "http://www.itcast.cn/"
urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 網頁抓取,下載網頁(也可以將txt格式轉成html)
urllib.urlretrieve(url, 'D:\\pachong\\download.html')
轉載于:https://www.cnblogs.com/tianqizhi/p/8528033.html
總結
以上是生活随笔為你收集整理的爬虫1_python2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP 如何判断当前用户已在别处登录
- 下一篇: Standard C Episode 8