【自动化】火车头采集器
火車采集器(LocoySpider) 是一個供各大主流文章系統,論壇系統等使用的多線程內容采集發布程序。使用火車采集器,你可以瞬間建立一個擁有龐大內容的網站。系統支持遠程圖片下載,圖片批量水印,Flash下載,下載文件地址探測,自制作發表的cms模塊參數,自定義發表的內容等有關采集器。對于數據的采集其可以分為兩部分,一是采集數據,二是發布數據。
火車采集器(LocoySpider)是一款功能強大的網頁內容采集軟件.它可以從網絡上抓取文字,圖片,flash,視頻及其它網絡資源.同時,軟件具有強大的信息發布功能,可以將采集的數據模仿瀏覽器發布到網站或是直接導入Access、MySql、MS SqlServer數據庫,還可以保存為本地文件,方便瀏覽使用.
火車采集器可以廣泛的應用于各種網站,數據系統或是用于資料收集之用.使用它我們可以獲取最新的新聞并發布新聞到自己的網絡系統,或者用來收集信息,為決策提供相關資料,也可以將它作為一個批量下載工具,用來獲取自己需要的信息,還可以作為網站開發者測試工具,用來提交測試數據.更多應用可以在實際中靈活運用.
作為網絡上主流采集器之一,與同類產品相比,火車采集器擁有以下特點:多任務,多線程,多標簽,多頁面采集,多種SEO功能, 多種發布方式,多種數據庫入庫支持,支持接口插件等應用擴展,對于采集的數據可以本地可視化編輯,下載功能強大,支持各種網絡服務器數據采集,可視化測試,支持網頁壓縮采集,可以發布數據時上傳文件,自動采集更新功能,良好的用戶體驗.下邊分別就每項功能做一下具體說明
功能介紹
1. 多任務
火車采集器中的任務是一個完整的采集過程.包括采集網址,采集內容,發布內容三項.可以同時進行三項工作,也可以分批次,分過程進行采集.多任務就是程序可以同時運行多個任務,只要用戶的電腦配置足夠好,就可以運行足夠多的任務來抓取數據.多個任務之間互不干擾,可以分別進行停止,暫停,查看采集數據等操作.
2. 多線程
多個線程的使用使程序運行時效率可以得到提升,抓取及發布速度加快,對于抓取大量數據非常用效.同時又不會影響其它任務的運行.
3. 多標簽
程序在抓取數據時,可以對抓取的數據進行標記,這個就是標簽的功能.我們可以標明抓取的數據是標題還是內容或是作者.而標簽的數量是不限制的,這樣,程序就可以抓取到更為復雜的數據并很方便的時行處理.
4. 多頁面采集
有時一條信息的數據存在于多個頁面上,我們軟件針對這一問題開發了多頁采集功能.程序可以從采集頁網址里獲得與其有相關性的網頁并抓取其內容,然后保存在一條記錄中.
5. 循環采集
程序可以在一個頁面或多個面頁進行循環采集,可以抓取源碼樣式一樣的數據.這對于類似論壇這樣的網站可以將所有數據抓取下來.同時軟件可以將抓取的循環記錄做為新記錄保存.
6. 多種seo功能
一些站長或編輯用戶需要對網頁內容做seo優化.這時,可以使用程序的提取關鍵字功能.
程序從關鍵詞詞庫里,按詞頻,詞性對內容進行分詞并提取出內容的關鍵字.可以對多個標簽進行提取.
7. 多種發布方式
數據抓取下來后,我們可以通過多種方式來處理數據.web在線發布功能是我們功能最受歡迎的一種發布方式,它不用用戶修改自己的網站,程序模仿的是瀏覽器提交數據的過程.利用此功能,可以很方便的將數據發布到自己的網站系統而不用考慮用戶的網站是建立在什么系統或使用什么程序.數據庫入庫方式是程序通過接口執行sql語句,將采集下來的數據直接發送到數據庫的一種方式.它的特點是高效.程序支持ACCESS,MSSQL,MYSQL三種數據庫的直接入庫操作.同時,軟件也可以將數據保存為本地文本文件,如html網頁,sql語句.
8. 插件接口
軟件在不斷增加功能的同時,考慮到用戶不同的需求,所以讓參與程序開發,擴展程序功能.目前程序提供了php文件處理接口和.net插件處理程序.php文件處理接口可以對采集后的數據進行二次處理..net編程接口可以在下載網頁后,程序處理前對網頁內容進行處理.通過對采集前和采集后的兩次處理,基本可以滿足大部分用戶對數據采集的需求.
9. 本地數據可視化編輯
對于抓取到本地的數據,我們可以做一些編輯后再發布,這對于一些網站編輯用戶特別有用.可以省卻再去網站上修改的麻煩.本地編輯支持源碼,可視編輯及預覽三種視圖方式.數據處理中可以使用sql語句對內容進行批量處理,也可以使用詞庫對一些敏感詞進行批量替換.
10. 文件下載功能
程序一大特點是可以下載網頁上的圖片,flash及其它的附件形式的文件.可以突破一般的簡單的防盜鏈系統.可以自動識別下載文件類型,對于一些未知格式也可以正常下載.對于大一些的文件,可以使用分段下載.對于支持斷點續傳的文件支持斷點續傳.
11. 支持多種服務器
網絡上網站服務器多種多種,一些在http協議上也稍有不同.程序對這方面做了特殊處理,可以采集基本所有的服務器數據.同時軟件具有自動識別網頁編碼的功能,對于那些因服務器差異不發送網頁編碼的數據也能很好的支持.在http協議方面,程序可以自定義http頭,實現各種服務器數據的順利抓取.
12. 網頁數據壓縮技術
為了節省帶寬,大多數服務器是支持網頁壓縮的.目前主要的壓縮方式為gzip和deflate兩種.程序可以下載經壓縮后的網頁,然后進行解壓還原并處理.這個功能的使用相比直接下載要減少帶寬很多,下載速度可以提高3-10倍.
13. 自動上傳文件到網站
在論壇發帖時我們可以直接將附件上傳上去.程序也實現了這個功能.可以在發送數據的同時將本地文件上傳到服務器上.這對于做論壇或是圖片的用戶來說非常有用.可以減少使用ftp或是加強防盜鏈功能.
14. 自動采集更新功能
程序支持無人值守的工作.用戶可以設定程序在指定的時間里去運行某個任務,去完成抓取任務.這樣可以減少人工采集的強度.配合網站的一些功能,可以實現無人值守的網站更新.
15. 可視化測試功能
程序的這個功能在采集軟件里是非常有強大的.用戶可以在編寫一部分規則后測試采集效果.程序可以完成數據抓取,文件下載等所有的功能.規則制作的正確與否,可以直接看出來.對于提高測試規則的效率非常明顯.
16. 良好的用戶體驗
程序在方便用戶使用上做了非常多的改進.可以批量導出導入任務.智能導入任務規則.任務運行區不同運行狀態以不同顏色標記.標簽編輯框可以隨內容長度改變大小.規則模塊里的關鍵部分高亮顯示.
程序分析 上邊是程序總的功能說明,下邊我們對程序的各個可執行文件及其功能做一個簡介.
1. 火車采集器主程序 LocoySpider.exe
程序的主要操作都在這里進行.它包括了任務的制作,任務的運行,數據的編輯,自動運行的設置等功能與一身,離開了它,軟件就無法正常工作.
2. 獲取源代碼,http模擬提交工具 LocoyPostGet.exe
這個工具是一個數據提交工具.可以使用它來向服務器提交一些數據,然后查看返回的信息.可以在提交數據時設置發送數據的來源,瀏覽器,具體數據等信息.然后可以查看返回的信息.可以查看服務器的一些設置,如服務器軟件,服務器時間,服務器上網站程序發送回來的其它信息等.
3. WEB在線發布模塊工具 LocoyModule.exe
這個工具是來設置如何向服務器發送數據的.可以定義發送數據的頁面地址,發送頁面的來源頁面地址,發送的數據包格式.同時可以定義如何獲得欄目id信息及獲取一些發布數據時需要的一些隨機參數.
4. WEB在線發布配置工具 LocoyWebCMS.exe
Web在線發布模塊一般是通用型的發布方式.如果需要針對某個具體的網站發布數據,則需要通過WEB在線發布配置工具來定義具體的發布方法.在發布配置工具里可以配置發布網站的編碼,網址地址,發布的欄目以及測試發布的效果.
5. 數據庫模塊編輯器 LocoyDatabaseModule.exe
數據庫模塊編輯器可以執行SQL語句,將數據直接插入數據表中,對于一些表結構簡單的系統來說,直接入庫是高效有效的發布方式.
6. php外部編程接口測試 LocoyInterface.exe
可以直接編碼php代碼并測試數據處理效果.
7. 數據庫入庫管理程序 LocoyDatabase.exe
可以設定入庫時的數據庫信息.如數據庫名,密碼,編碼等信息.然后測試入庫效果.
編輯本段|回到頂部使用人群 1. 網站采編人員
打破傳統的采編人員必須手工轉載文章的現狀,使他們更有時間去做數據的編輯加工,工作更有成效.程序可以完美結合TRS等采編系統,大型網站的信息采集將更加容易有效.
2. 內部網絡
打破內網信息單一,獲取困難的神話,內部網絡也可以體驗豐富多彩的互聯網信息.可以解決形如軍隊等與因特網隔離的重要部門對于因特網的信息需求問題 .
3. 政府機關
實時跟蹤、采集與政府工作相關的國內外及地方新聞,政策法規,經濟,產業等信息,解決政府主網站對各地級子網站的信息采集與整合問題.
4. 企業應用
實時而準確地采集國內外新聞,行業新聞,技術文章.可以很容易的進行數據整合,情報處理更快捷高效,大大減少業務成本.
5. SEO人員或站長
數據的獲得更.加容易,可迅速增加網站信息量,可以將更多精力放在優化和推廣上
總結
以上是生活随笔為你收集整理的【自动化】火车头采集器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 纯CSS3编写的面包屑导航收集
- 下一篇: transient简介