python网络爬虫文献综述_python网络爬虫综述
本文主要是個人python學習過程中的碎碎念想,希望對感興趣的童鞋有所幫助。
百度百科上網絡爬蟲的定義是:“網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本”。使用網絡爬蟲可以個性化的從互聯網上抓取個人干興趣的數據,完成當前搜索引擎所做不到的一些個性化搜索。不太恰當的說,使用python編寫網絡爬蟲,其實就是在模擬模擬瀏覽器的工作過程,從互聯網上抓取所需的信息并完成分析和提取、保存的過程。
為了更好的網絡爬蟲的工作過程,我們首先來看用戶訪問互聯網資源的過程,以用戶在瀏覽器中輸入:
http://www.baidu.com為例,當用戶輸入完成并開始搜索時,用戶所請求的網頁經過DNS完成域名解析后,通過網絡承載HTTP協議棧的數據,發往百度所在的服務器,百度的數據器收到請求后將百度的首頁的數據返回給用戶(假設這一過程發生的所有過程全部正確),用戶的瀏覽器收到百度響應數據后,采用瀏覽器進行數據解析,將百度的首頁呈現在用戶眼前。這里百度返回的數據是HTTP協議棧所封裝的HTML/CSS/PHP的數據。如上文所述,我們使用python編寫網絡爬蟲時,其工作原理也是如此。為完成這一工作過程,我們需要掌握python的基礎知識,其中最重要的是python的urllib和urllib2庫和python的正則表達式的使用,前者主要完成從目標主機中找到信息所在的“網頁”,后者主要是從“互聯網返回的網頁”中獲取到所需的信息。
閑話少說,我們以一些實際例子來看,如何使用使用python來編寫一些簡單的網絡爬蟲。
總結
以上是生活随笔為你收集整理的python网络爬虫文献综述_python网络爬虫综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 钟乳的功效与作用、禁忌和食用方法
- 下一篇: 电脑出现qtwebengineproce