PHP系统能不能加爬虫,php能做爬虫吗
phpspider一款優(yōu)秀的PHP開發(fā)蜘蛛爬蟲
編寫PHP網(wǎng)絡(luò)爬蟲,需要具備以下技能:
爬蟲采用PHP編寫(推薦學(xué)習(xí):PHP視頻教程)
從網(wǎng)頁中抽取數(shù)據(jù)需要用XPath ( XPath選擇器教程 )
當(dāng)然我們還可以使用CSS選擇器 ( CSS選擇器教程 )
很多情況下都會用到正則表達式 ( 正則表達式教程 )
Chrome的開發(fā)者工具是神器, 很多AJAX請求需要用它來分析
注意:本框架只能在命令行下運行,命令行、命令行、命令行,重要的事情說三遍 ^_^
本篇寫的demo是爬取軍事教育網(wǎng)站<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要刪除這段注釋 */
$configs = array(
'name' => '軍事', // 給你的爬蟲起一個名字
'log_show' => false, // 是否顯示日志
'tasknum' => 1, // 開啟多少個進程爬取
// 數(shù)據(jù)庫配置
'db_config' => array(
'host' => '127.0.0.1',
'port' => 3306,
'user' => 'root',
'pass' => 'root',
'name' => 'collection',
),
// 數(shù)據(jù)庫表,表需要已存在,collection庫,test表
'export' => array(
'type' => 'db',
'table' => 'test',
),
// 爬取的域名列表
'domains' => array(
'war.163.com'
),
// 抓取的起點
'scan_urls' => array(
'http://war.163.com'
),
// 列表頁實例,你要爬取的列表,也就是分頁
'list_url_regexes' => array(
"http://war.163.com"
),
// 內(nèi)容頁實例,文章的內(nèi)容頁
// \d+ 指的是變量,就是可變的參數(shù)
'content_url_regexes' => array(
"http://war.163.com/photoview/4T8E0001/\d+",
),
// 失敗重新爬取次數(shù)
'max_try' => 5,
// 爬取規(guī)則配置
'fields' => array(
array(
'name' => "title", // 數(shù)據(jù)庫字段名
'selector' => "//div[@class='headline']/h1", // 規(guī)則,表示:headline類里的h1標(biāo)簽
'required' => true, // 如果為空,整條數(shù)據(jù)丟棄
),
array(
'name' => "content",
'selector' => "//div[@class='overview']/p",
'required' => true,
),
array(
'name' => "img",
'selector' => "//img[@class='firstPreload']",
'required' => true,
),
),
);
$spider = new phpspider($configs);
$spider->start();
總結(jié)
以上是生活随笔為你收集整理的PHP系统能不能加爬虫,php能做爬虫吗的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学烹饪的学费大概是多少?
- 下一篇: 橙分期还款解冻是什么意思