基于JavaWeb的网站图片爬虫系统
資源下載地址:https://download.csdn.net/download/sheziqiong/85811020
資源下載地址:https://download.csdn.net/download/sheziqiong/85811020
目 錄
1 前 言 1
2 系統概述 2
2.1 課題背景與意義 2
2.1.1 課題開發背景 2
2.1.2 課題開發意義 2
2.2 課題開發工具 3
2.2.1 JAVA和JSP技術簡介 3
2.2.2 Tomcat 6.0服務器架構 4
2.2.3 MyEclipse介紹 5
2.2.4總體開發 6
2.3 開發及運行環境 6
3 系統分析 8
3.1 系統概述 8
3.2 系統功能分析 8
3.2.1 可行性分析 8
3.2.2 具體功能分析 8
3.3搜索引擎的分類 9
l、全文索引式搜索引擎 9
2、垂直搜索引擎 9
3、元搜索引擎 9
4、目錄索引式搜索引擎 9
5、其他非主流搜索引擎形式: 10
4 系統設計 10
4.1 數據庫設計 10
4.1.1 數據庫總體設計 10
4.1.2 數據庫邏輯設計 11
4.2 系統總體設計 14
4.2.1 總體設計 14
4.2.2 系統邏輯處理 14
4.3 功能設計 15
4.3.1 網站登錄頁 15
4.3.2 系統界面 16
4.3.3 系統配置 17
5 系統實現與調試 18
5.1 系統實現概論 18
5.2 系統功能實現 18
5.2.1 文件結構圖 18
5.2.2 文件詳細結構圖 20
5.3 關鍵技術實現 20
5.3.1 web.xml 20
5.3.2 數據庫db_shopSystem連接部分 22
5.3.3 定時任務掃秒xml文件獲取爬蟲接口數據 23
5.4 調試過程中的常見錯誤 24
5.4.1 JDK配置錯誤 24
5.4.2 SQL空指針異常 25
5.4.3 數據庫連接錯誤 25
6 結 論 26
致 謝 27
參 考 文 獻 28
3 系統分析
3.1 系統概述
傳統的網絡爬蟲技術主要應刷于抓取靜態Web網頁l 31.隨著AJAX/Web2.0的流行,如何抓取AJAX等動態頁面成了搜索引擎急需解決的問題,因為AJAX
顛覆了傳統的純HTTP請求/響應協議機制,如果搜索引擎依舊采用“爬”的機制,是無法抓取到AJAX頁面的有效數據的。AJAX采用了JavaScript驅動的異步請求/響應機制.以往的爬蟲們缺乏JavaScript語義上的理解.基本上無法模擬觸發JavaScript的異步調用并解析返回的異步回淵邏輯和內容另外.在AJAX的應用中,JavaScript會對D0M結構進行大量變動,甚至頁面所有內容都通過JavaScript直接從服務器端讀取并動態繪制出來。這對習慣了D0M結構相對不變的靜態頁面簡直是無法理解的由此可以看出.以往的爬蟲是基于協議驅動的,而對于AJAX這樣的技術,所需要的爬蟲引擎必須是基于事件驅動的。要實現事件驅動,首先需要解決JavaScript的交互分析和解釋的問題。
本設計主要研究網絡爬蟲程序的設計與實現,實現簡單的可在后臺自動運行的爬蟲程序。爬取各個網站并下載圖片到服務器,展示圖片,圖片展示應用瀑布流,響應用戶請求。
3.2 系統功能分析
3.2.1 可行性分析
(1) 技術可行性:本系統的配置。
(2) 經濟可行性:系統的配置,不需要昂貴的 EJB 服務器,開發成本低。
(3) 操作可行性:訪問系統的主要有兩種:用戶,管理員。目前資源的利用情況和可操作性,只需少量的對數據庫中的表的直接操作就可以實現系統的完整、穩定的運行,不會造成系統的巨大壓力。
3.2.2 具體功能分析
目前,比較常見的網絡爬蟲搜索策略有以下三種:
1、廣度優先搜索策略。其主要思想是,由根節點開始,首先遍歷當前層次的搜索,然后才進行下一層的搜索,依次類推逐層的搜索。這種策略多用在主題爬蟲上,因為越是與初始URL距離近的網頁,其具有的主題相關性越大。
2、深度優先搜索策略。這種策略的主要思想是,從根節點出發找出葉子節點,以此類推。在一個網頁中,選擇一個超鏈接,被鏈接的網頁將執行深度優先搜索,形成單獨的一條搜索鏈,當沒有其他超鏈接時,搜索結束。
3、最佳優先搜索策略。該策略通過計算URL描述文本與目標網頁的相似度,或者與主題的相關性,根據所設定的閾值選出有效URL進行抓取。
3.3搜索引擎的分類
搜索引擎的分類主要有以下幾種:
l、全文索引式搜索引擎
全文索引式搜索引擎是現今主流的搜索引擎,國內代表有Baidu,國外代表
有Google。全文索引式搜索引擎主要是將從因特網上提取到的與每個網頁相關
的基本信息集中起來建立一個鏡像數據庫,借助檢索數據庫得到與查詢條件相匹
配的全部記錄,并按照一定的排列順序呈現給用戶。
全文搜索引擎按檢索結果的來源角度來分,具體可以分為以下兩大類:一類
搜索引擎其自身具備相對獨立的網頁提取、頁面索引及檢索系統(Indexer),也
具備獨立的爬蟲(Crawler)、“機器人"(Robot)程序或者“蜘蛛"(Spider)
程序,同時還具備獨立的網頁數據庫,通過該網頁數據庫可以直接從中提取檢索
信息,在國內外的大型全文搜索引擎中,Baidu和Google正是此類搜索引擎的典
型代表;另一類引擎其自身并不具備完整獨立的數據庫,必須借助于其他搜索引
擎的頁面數據庫,通過對該頁面數據庫進行檢索并提取出相關的檢索信息,此類
搜索引擎的代表如Lycos。
2、垂直搜索引擎
2006年互聯網上逐漸出現了一類新的搜索引擎,即垂直搜索引擎。垂直
搜索與通用的網頁搜索引擎相比,它主要是設計為了服務特定的檢索領域和檢索需求,如影視檢索、票務檢索、圖書檢索等,其專業化服務使其在這些特定的搜索領域具有更為出色的表現。此外,垂直搜索較通用的網頁搜索引擎要求相
對較低的硬件成本、面向的用戶需求相對特定化、查詢的方式也可以是多種多樣。
3、元搜索引擎
用戶通過向元搜索引擎【131輸入檢索請求,該搜索引擎系統可以同時通過檢索多個其他搜索引擎系統的網頁數據庫提取相關搜索結果,并將其按特定順序排列呈現給用戶。
國內外的元搜索引擎的代表有Dogpile(http://www.dogpile.corn)、InfoSpace等,搜星是比較具有代表性的中文元搜索。元搜索引擎的檢索結果按一定的排序呈現,這種排列過程有的是基于來源排列檢索結果,此類代表有Dogpile;有的依據特定規則排列,如Vivisimo。
4、目錄索引式搜索引擎
目錄索引式搜索引擎雖然具備一定的檢索功能,但并不是嚴格意義上的搜索
引擎,它所實現的功能主要是借助一些搜索目錄或者是分類目錄來劃分網站鏈接列表。用戶可以選擇借助于對這些分類目錄進行檢索來獲取所需要的相關信息和資料,而不需要通過關鍵詞(Keywords)的檢索來獲取目標信息。如今,新浪、
雅虎等都是目錄索引式搜索引擎的的典型代表。
5、其他非主流搜索引擎形式:
MSN Search、AOL Saerch等門戶搜索引擎在提供檢索服務時,由于其自身
不具備獨立的網頁數據庫也沒有獨立的分類目錄,因而這類引擎的檢索結果只能借助于其他搜索引擎來完成。集合式搜索引擎與元搜索引擎有著一定相似之處,也存在很大的差異,諸如它并不能同時對多個大型的全文搜索引擎系統進行同步檢索,而需要由用戶在其提供的常用搜索引擎列表中手動確定一個搜索引擎,然后對該搜索引擎中的數據庫進行檢索,HotBot就是此類搜索引擎的代表。
免費鏈接列表(Free For All Links,FFA)通常只提供滾動鏈接條目,少部分存在著比較簡單的分類目錄。
5.3 關鍵技術實現
5.3.1 web.xml
5.3.2 數據庫db_shopSystem連接部分
public static synchronized Connection getConn() {try {Properties properties = new Properties();properties.load(DBConn.class.getClassLoader().getResourceAsStream("jdbc.properties"));String driver = properties.getProperty("jdbc.driverClassName");String url = properties.getProperty("jdbc.url");String username = properties.getProperty("jdbc.username");String password = properties.getProperty("jdbc.password");Class.forName(driver);conn = DriverManager.getConnection(url, username, password);//conn = DriverManager.getConnection("jdbc:microsoft:sqlserver://localhost:1433;databasename=zuoyetijiao","sa","think");} catch (Exception e) {}return conn;}
資源下載地址:https://download.csdn.net/download/sheziqiong/85811020
資源下載地址:https://download.csdn.net/download/sheziqiong/85811020
總結
以上是生活随笔為你收集整理的基于JavaWeb的网站图片爬虫系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 法律文件撰写:错别字检查工具的重要性及使
- 下一篇: vs2008 控制台程序在win2000