最大化参数 火车头_火车头采集器菜鸟使用手册
《火車頭采集器菜鳥使用手冊》由會員分享,可在線閱讀,更多相關《火車頭采集器菜鳥使用手冊(36頁珍藏版)》請在人人文庫網上搜索。
1、www.okyanli.com OK眼力 精準分享論壇火車頭 采集教程火車頭采集器使用說明下載地址:http:/www.okyanli.com/forum.php?mod=viewthread&tid=4&extra=下載地址:http:/www.locoy.com/Down/ 我們下載免費版。注意:想用火車,就必須得安裝.NET FrameWork 2.0框架或更高版本.net framework 2.0下載地址: 那么,火車我們也下載到本地了,。net框架,我們也安裝了。那么,我們把新下載的火車采集軟件,解壓下。看到一些密密麻麻亂七八糟的東西及文件。那么。上圖中,用紅線圈住的LocoySp。
2、ider.exe 是主程序,我們雙擊打開。ps:這里說下,上圖中,有好多任務是我自己用的。新程序,并沒有那么多。我們會看到火車的界面,看起來非常復雜,是吧? 呵呵,其實并沒有那么復雜,對于新手,有好多東西是用不到的。下邊會一一的講解。我們先補習一下,火車頭采集軟件的工作原理。因為我們瀏覽到的網頁,最后都是通過html輸出的,那么意味著,我們可以查看到html的源碼,那么火車頭為什么會采集到內容呢?我們看下網站的基本結構。-這些藍色的東西,對于新手,我們不需要知道!網頁的標題 -紅色的是網頁的標題。如下圖(1)內容 在這個和之間的,是網站的內容部分。如下圖(2)-這里是網站的結尾。如果想查看一個。
3、網頁的html源文件,之需要點擊瀏覽器上的 查看,源文件即可。(1)(2)那么,我們知道了一個網頁最基本的架構,那么就好理解火車采集的基本原理了火車采集軟件是怎么采集的呢?我們配置好火車頭采集規則,什么叫采集規則?就是我們查看網頁的源文件,看看整個網頁的源碼,內容部分的開始標簽,和結束標簽,這樣火車才能知道,我們要采集這個頁面的哪個部分,比如下邊我們演示的。網頁的標題內容我們想要采集“內容”那么就要告訴火車采集器,內容開始標簽是,結束標簽就是明白了么?呃。估計是我的表達能力不夠好。so。我們看下邊的實例,在好好鞏固下就OK。OK。那么我們開始一步一步教大家設置采集規則。首先第一個。我們的目標站。
4、。discuz!x1.5架構的網站。http:/www.yq90.cn/forum-60-1.html我們要把這個版塊的內容以及回復都采集到我們的網站上去。首先我們打開火車,新建一個站點。點擊火車左上角上的新建按鈕,選擇新建站點。如下圖我們只需要填寫站點名就可以,其余的保持默認,然后點擊保存按鈕!然后。在這個站點下,新建一個任務。選中我們新建的站點,點擊鼠標右鍵,選擇第一個,從該站點新建任務。如下圖其中1,是任務的名字,必須填寫。2,是整個采集任務的步驟向導,3,是文章列表的設置區域(下邊講解),4,和3差不多。5,是登錄的地方,有些網址必須登錄,我們才可以看到內容,就是這個東西!OK。就這些。
5、,那么,我們一步一步的來!首先我們給我們的任務加一個標題。下一步,我們就開始設置列表的采集規則(因為現在火車不知道 http:/www.yq90.cn/forum-60-1.html 這個頁面的文章列表是那些,所以我們要告訴火車!)這里有兩種方式,新手嘛,我也不知道適合哪種。我們就用默認的吧,第一種我們點擊向導添加然后出現下圖。其中有4個選項卡,如果我們只采集目標站點的一個文章列表http:/www.yq90.cn/forum-60-1.html,那么我們選中單條網址,直接寫上目標的列表網站,如下圖!然后點擊添加,點擊完成就OK。那么,如果我們要采集多個列表。那么我們回到 看下邊的圖其中1,是。
6、目標網站的地址其中2,是火車的通配符(就是某個東西識別的東西)其中3,是間隔數已經補零(下邊一一講解)其中4,數字變化。下邊講解其中5,字母變化。那么。看下圖圖中在地址欄填寫的是 http:/www.yq90.cn/forum-60-(*).html 這個。那么,這是什么意思呢? 我們打開 http:/www.yq90.cn/forum-60-1.html 這個地址,然后點擊下一頁發現地址變成了 http:/www.yq90.cn/forum-60-2.html 那么我們在點擊下一頁,就是第三頁,發現地址變成了 http:/www.yq90.cn/forum-60-3.html 那么在點擊第四。
7、頁。想必大家也知道變成什么了吧? 那么第一頁:http:/www.yq90.cn/forum-60-1.html第二頁:http:/www.yq90.cn/forum-60-2.html第三頁:http:/www.yq90.cn/forum-60-3.html翻頁中,我們發現,只有1在變化。那么我們在火車那里就填寫http:/www.yq90.cn/forum-60-(*).html 這個,其中1用火車的通配符(*)替換掉。意思就是,只有1在變化。在看下邊其中數字變化,從1到5.意思就是 從地址欄 http:/www.yq90.cn/forum-60-(*).htm獲取地址 1到5,就是下邊這。
8、樣的。http:/www.yq90.cn/forum-60-1.htmlhttp:/www.yq90.cn/forum-60-2.html。http:/www.yq90.cn/forum-60-5.html明白了么?其實很簡單。那么字母變化,就是 http:/www.yq90.cn/forum-60-a.htmlhttp:/www.yq90.cn/forum-60-b.html。http:/www.yq90.cn/forum-60-z.html因為我們目標地址是數字變化。我們繼續看下邊間隔倍數,和補零。間隔倍數1是什么意思?40又是什么意思呢?間隔倍數1就是http:/www.yq90.cn/。
9、forum-60-1.htmlhttp:/www.yq90.cn/forum-60-2.html。http:/www.yq90.cn/forum-60-5.html間隔倍數40就是http:/www.yq90.cn/forum-60-40.htmlhttp:/www.yq90.cn/forum-60-80.html。http:/www.yq90.cn/forum-60-200.html明白了么?那么我們在看補零,補零就是。http:/www.yq90.cn/forum-60-01.htmlhttp:/www.yq90.cn/forum-60-02.html。http:/www.yq90.cn/。
10、forum-60-05.html就是這樣。其實很好理解。OK。我們繼續。我們填寫完成后,點擊添加 - 完成。如下圖到這里,我們的地址就添加完成了。那么下邊,我們來設置區域列表。我們先設置第一個。“文章內容頁面地址必須包含。不得包含。”我們隨便點開http:/www.yq90.cn/forum-60-1.html 這個網址中的兩篇文章,看下URL。就是文章地址。http:/www.yq90.cn/thread-88312-1-1.htmlhttp:/www.yq90.cn/thread-88373-1-1.html發現以上兩個地址。那么他們其中只有 http:/www.yq90.cn/threa。
11、d-88373-1-1.html 紅色部分在變動。那么,文章內容必須包含。我們寫 http:/www.yq90.cn/thread-(*)-(*)-(*).html 這樣就可以,那么我們點擊“開始測試網址采集”這個時候,我們點開網站前邊的+號發現,其實網址已經采集成功了。其中的并不需要填寫。這是為什么呢?因為我們采集的頁面 http:/www.yq90.cn/forum-60-1.html 中的文章地址,就是 http:/www.yq90.cn/thread-88373-1-1.html這樣的地址,至于為什么要寫成http:/www.yq90.cn/thread-(*)-(*)-(*).htm。
12、l這樣,是因為其中的http:/www.yq90.cn/thread-88373-1-1.html 紅色部分都會變動。或者有可能變動。所以我們加上通配符,所以我們不用填寫這個,也可以采集成功。那么,為了讓大家更直白的了解火車,我們還是寫一下。那么我們打開 http:/www.yq90.cn/forum-60-1.html 這個地址,在頁面中,點擊右鍵,選擇“查看源文件”(因為不好截圖。)發現上邊的東西出現,都是一些猥瑣的html代碼。我們怎么定義文章地址的區域呢?看下圖我們復制頁面中的“篩選”然后在頁面源碼中查找下,那么自然,下邊的,就是文章地址的區域咯。那么我們在這里,填寫什么呢?我們要填寫。
13、一個“唯一”的東西。就是這個頁面獨有的一個,并且在文章地址上方的一個代碼。如上圖。我們選擇這段 代碼!然后我們復制 這段代碼,在我們打開的源文件中,向下查找看,看看有沒有相同的。好消息。沒有相同了。那么我們在填寫 那么這里怎么填寫呢?其實一樣。我們給下看看源碼。我們向上查找下。OK.那么。就填寫.就OK。照著這樣填寫就OK了。其實這一步是多此一舉。只是教大家怎樣填寫罷了。我們隨便選中一條地址,雙擊鼠標左鍵。直接跳到第二部,采集內容規則。在這里,我們點擊一下測試按鈕。發現,標題和內容都采集到了,但是。在標題上,我們把目標站點的網站主標題也采集過來了。而內容。是把整個頁面亂七八糟的東西都采集過來了。
14、。那么。我們開始設置更精確的采集規則。擦。首先,我們設置標題。現在默認的采集標題是 又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz! 我們需要的標題是紅色部分。那么。 我們雙擊上圖被圈住的地方。那么我們需要設置的地方就是那么。我們現在采集到的標題是 又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz! 這個,那么,我們只需要把藍色的部分去掉。怎么去掉呢?下圖我們添加然后點擊確定點擊測試發現又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張。
15、家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz! 藍色部分已經被去掉。那么我們這里來解釋下。上圖中的開始字符串和結束字符串是什么呢?我們打開 http:/www.yq90.cn/thread-88389-1-2.html 這個頁面,然后查看下源文件。如下圖。可以發現,在和中就是我們要采集文章的標題,只是多了- 無聊扯蛋 - 張家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz! 這個,那么我們排除就可以了。那為什么在中,要寫成- (*) - 張家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz!這樣的呢?為什么把 無聊。
16、扯蛋換成了(*)呢?因為我們可以看得出- 無聊扯蛋 - 張家口市姚家房鎮及周邊地方娛樂門戶站 - Powered by Discuz! 無聊扯蛋 只是這個網站的一個版塊,如果采集別的版塊,那么 無聊扯蛋,就會變動。到時候我們還得設置排除標簽。索性,我們把它改成通配符(*),那么在采集別的版塊,就不用設置了。那么其中的藍色部分,是網站的主標題,在一般情況下是不會變動的。所以不用搞成通配符。 那么。標題。我們就設置完成了。下邊來設置內容部分。內容部分的采集規則設置,其實和列表一樣!我們服飾內容,在源文件進行查找。其中選中的部分,就是我們的內容部分。那么。我們在源碼中 查找下 這個標簽,看看是不是唯。
17、一的。 發現并不是唯一的。而是每個樓層也就是回帖的內容都是用 和 括起來的。那么。我們就輸入上圖所示。在圖中的 html標簽排除。我們全選。因為我們之后的發布,是不支持發布附件的,也不支持html。所以全部排除。然后確定。我們測試下其中內容和內容之間,用|分割開了。這是啥意思類?呵呵。這個是循環匹配。就是。一個樓層與樓層之間的分隔符。就是回復與回復之間的分隔符。哎呀。我也說不清楚啦。總之。這樣就可以。默認,保持不變就OK。那么。現在,標題也設置OK。內容也OK。接下來就是分頁問題。我們在源文件中查找“下一頁”那么圖中被選中的地方,就是下一頁的全部源碼。那么,我們選中下一個的開始標簽 和結束標簽。
18、,對應輸入到就可以了。我們在分頁內容合并鏈接代碼這里輸入|這個。至于什么意思。就是分頁嘛。我也說不清楚。總是輸入就是了。那么。到這里,網址采集部分,和內容采集部分已經設置完畢了。下邊,我們要講,發布。現在開始講解 火車頭的發布。因為我們需要發布到 我們的 discuz!x1.5的程序上。那么,首先我們需要兩個東西1.火車頭的dz1.5的發布模塊 (塵緣免費版)2.免登錄接口 (塵緣免費版)那么。下載地址。http:/u.115.com/file/f2171fad7e如果下載地址失效。請加我QQ 索取 782711659下載后,解壓。首先呢。我們需要配置接口。我們進入接口文件夾。并且進入對應編碼。
19、的文件夾發現有兩個php文件。 其中的 Locoy.php是程序主文件,可以改名,Locoy.config.php是配置文件,不能改名。那么我們先把Locoy.php的名字改掉。我們改成 woca.php然后我們打開locoy.config.php 這個文件其中1,是發帖的用戶,2,是回帖的用戶。這里我們可以填寫自己的。記得用|分開。這里說下,我們填寫的用戶名,可以是網站沒有注冊的,也可以是注冊過的。如果沒有注冊的,它會自動注冊。剩下其他的配置參數,可以根據自己的需要更改,都有注釋,這里就不一一解釋了。更改完成后,我們把這兩個文件上傳到我們空間的根目錄。OK。接口文件我們已經處理完畢。那么。我。
20、們開始處理發布模塊。進入火車。我們導入圈中的模塊。因為我已經導入過了。所以這里不用。在圖中圈住的地方。我們要修改成我們自己改的名字。如圖。記得在刷新列表那里也要修改。OK。模塊基本完成了。還有一點。如果我們的版塊開啟了主題分類,那么我們還需要修改下模塊。比如我們要給維修知識里邊發。那么。發現主題分類的typei=1 那么我們在發布模塊中填寫。明白了唄? 呵呵。就這樣我們的發布模塊就配置完成了。 我們保存。給它加一個名字。然后我們關閉當前的模塊。我們選中我們剛才修改過并且重命名的模塊。然后進行填寫信息。如下圖。其中1,輸入我們的網站地址。2,把“目標網站需要登錄的溝,去掉。”3.點擊一下獲取列表。4,填寫一個名字,并且保存配置在空白處,點擊右鍵。選擇添加更多發布配置。然后選中我們剛剛配置好的模塊!選中,點擊添加。記得選中啟用。下一步,我們點擊選擇分類選擇我們要發布的版塊。然后確定。然后保存。更新。點擊開始按鈕。采集內容列表中。采集內容中。發布成功。偶爾有一兩個發布失敗。別管它。那是有點帖子內容太少,而你的論壇設置帖子字數的原因。Ok。
總結
以上是生活随笔為你收集整理的最大化参数 火车头_火车头采集器菜鸟使用手册的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OSG场景漫游(一)
- 下一篇: gitee配置流水线实现自动打包vue