php开源采集器,简单PHP采集器 - WangEven的个人空间 - OSCHINA - 中文开源技术交流社区...
//****************************************************************
$url = "http://book.sina.com.cn/nzt/lit/zhuxian2/index.shtml";// 圖書地址
$ver = "old"; //新舊版本
//****************************************************************
$r = file_get_contents($url); //用file_get_contents將網(wǎng)址打開并讀取所打開的頁面的內(nèi)容
preg_match("//is",$r,$booktitle);//匹配此頁面的標題
$bookname = $booktitle[1];//取第二層數(shù)組
$preg = '/
/isU';preg_match_all($preg, $r, $zj); //將此頁面的章節(jié)連接匹配出來
$bookzj = count($zj[1]);// 計算章節(jié)標題數(shù)量
if ($ver=="new"){
$content_start = "";
$content_end = "";
}
if ($ver=="old"){
$content_start = "";
$content_end = "
";
}
header("Content-Type:text/html;charset=gb2312");
writer($bookname." 共".$bookzj."節(jié)\r\n帥哥劉并于".date("D M j G:i:s T Y")."為了畢業(yè)而設(shè)計小說整理收集\r\n", "./ailaopo/".$bookname.".txt","w+");
for ($i=0;$i
//echo "http://book.sina.com.cn".$zj[1][$i]".shtml";die();
//用file_get_contents將章節(jié)連接打開并讀取所打開的頁面的內(nèi)容
$str = file_get_contents("http://book.sina.com.cn".$zj[1][$i].".shtml");
preg_match("/(
)(.*?)()/is",$str,$title);//匹配此連接頁面的標題$title = str_replace("_讀書頻道_新浪網(wǎng)","",$title[2]);//把$title[2]里面有_讀書頻道_新浪網(wǎng)的換成空
preg_match("/(".$content_start.")(.*?)(".$content_end.")/is",$str,$content);//匹配此連接頁面的內(nèi)容
$content = preg_replace("//s","",str_replace("
","\r\n",$content[2]));//用str_replace把$content[2]里有 的換成\r\nprint_r($content);
exit;
//把第".($i+1)."節(jié)和標題與內(nèi)容連接在一起放在變量
$result = " \r\n第".($i+1)."節(jié)--------".$title."_汪老師就是帥 --------- \r\n".$content;
writer($result, "./ailaopo/".$bookname.".txt","a+");//調(diào)用函數(shù)把$result
echo "小說".$bookname."共".$bookzj."節(jié),現(xiàn)在整理到第".$i."節(jié) _".$title."
";
}
echo "小說".$bookname."共".$bookzj."節(jié) 已全部整理完成!";
function writer($content,$url,$mode)//定義函數(shù)名 writer 參數(shù)$content,$url,$mode
{
$fp = fopen($url, $mode);//打開文件$url
fwrite($fp, $content);//把$content放入到$fp
fclose($fp); //關(guān)閉$fp
}
?>
總結(jié)
以上是生活随笔為你收集整理的php开源采集器,简单PHP采集器 - WangEven的个人空间 - OSCHINA - 中文开源技术交流社区...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 项目推进计划表_项目计划表:项目管理利器
- 下一篇: apache https反向代理设置方案