最大化参数 火车头_新手必看的火车头采集器使用入门教程_图文解说版!(看完包会)...
本文資料來源:火車頭采集器官網,但是講解說明遠優于官網!總結到位,重點解說明確—明月SEO
上一篇我們講到了:火車頭采集器使用圖文教程以及重點問題整理!?本文將以一個簡單的實測案例來說明,從而對重點問題進行細致入微的由淺入深的講解。
下面我們通過一個簡單的文章規則制作,來實戰說明
通過采集faq為例來說明采集器采集的原理和過程。 本例以?http://faq.locoy.com/qc-12.html?演示地址。
一.新建個采集規則
選擇一個分組上右擊,選擇“新建任務”,如下圖:
二.添加起始網址
在這里我需要采集 5頁數據。分析網址變量規律:
第一頁地址:http://faq.locoy.com/qc-12.html?p=1
第二頁地址:http://faq.locoy.com/qc-12.html?p=2
第三頁地址:http://faq.locoy.com/qc-12.html?p=3
由此我們可以推算出p=后的數字就是分頁的意思,我們用[地址參數]表示:
所以設置如下:
地址格式:把變化的分頁數字用[地址參數]表示。
數字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規律數字; 共5項,即一共采集5頁。
預覽:采集器會按照上面設置的生成一部分網址,讓你來判讀添加的是否正確。
然后確定即可
【明月SEO總結】
設置網址規則的第一步是分析確認采集目標網站欄目列表頁的頁面URL規律(是純列表頁)
三.[常規模式]獲取內容網址
常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。
在這里給大家演示用 自動獲取地址鏈接 +設置區域 的 方式來獲取。
查看頁面源代碼找到文章地址所在的區域:
設置如下:
注:更詳細的分析說明可以參考官網幫助手冊:操作指南 > 軟件操作 > 網址采集規則 > 獲取內容網址
點擊網址采集測試,看看測試效果
四.采集網址內容規則
注:更詳細的分析說明可以參考本幫助手冊:操作指南 > 軟件操作 > 內容采集規則 > 標簽編輯
我們首先查看它的頁面源代碼,找到我們“標題”所在位置的代碼:
導入Excle是跳出對話框~打開Excle出錯 - 火車采集器幫助中心分析得出: 開頭字符串為:
結尾字符串為: 數據處理——內容替換/排除:需要把- 火車采集器幫助中心?給替換為空內容標簽的設置原理也是類似的,找到內容所在源碼中的位置
分析得出: 開頭字符串為:
結尾字符串為: 數據處理——HTML標簽排除:把不需要的A鏈接等 過濾再設置個“來源”字段
【明月SEO總結】
1.第一步:分析出列表頁分頁的頁碼規律。并設置寫出采集目標網站欄目列表頁的頁面URL規律(是純列表頁)
2.第二步:分析出列表頁單頁面全部鏈接的前后代碼標簽,并設置采集此列表網址鏈接的規則。
3.第三步:分析出文章內容的前后代碼標簽,并設置內容的采集規則
注意:是從文章的正文內容開始!找出正文內容前后的代碼標簽。
(1)不是從文章標題開始
(2)也不是從文章的標示屬性開始
好了,既然我們知道是從文章內容的【正文】處的前后找前后標志代碼標簽,那么怎么找呢?有什么要求嗎?
4.前后代碼標簽查找的要求
并不是直接找正文的前后最近的閉合標簽代碼!
因為這個并不是唯一的
要求必須是離正文最近的,唯一不重復的前后代碼標簽。
5.點擊開始采集的時候,后邊的【發布】按鈕哪怕你只是采集到本地沒有設置發布,也要勾選上。不然火車頭采集器就采集不上。
6.從新采集的話需要右鍵選擇清空采集記錄,或者從新新建存儲文件夾。不然也采集不上。
以上總結的要點,均是明月SEO本人親測,實屬經驗之談,吐血分享,望周知。
如果你還有疑問,可以在本頁面下留言評論(免登陸,直接評論)。有問必答,明月SEO肯定吐血為你解答。
總結
以上是生活随笔為你收集整理的最大化参数 火车头_新手必看的火车头采集器使用入门教程_图文解说版!(看完包会)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【聚沙成塔】将Mon Jun 01 20
- 下一篇: 计算机基础知识excle,职称计算机基础