當前位置：首頁 > 编程语言 > php >内容正文

php

php采集分析,PHP采集程序原理分析篇

發布時間：2025/3/21 php 9 豆豆

生活随笔收集整理的這篇文章主要介紹了 php采集分析,PHP采集程序原理分析篇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于需要，要寫一個簡單的PHP采集程序，照例是到網上找了一堆教程，然后照貓畫虎，可是發現網上的教程全是似是而非，沒有一個真正能用的。苦想了幾天，終于弄明白了里面的道理。在這里寫出來，請高手指正。

采集程序的思路很簡單，無非就是先打一個頁面，一般都是列表頁，取得里面全部鏈接的地址，然后打開逐條鏈接，尋找我們感興趣的東西，如果找到，就把它入庫或別的處理。下面以一個很簡單的例子來說說。

首先確定一個采集頁，一般就是列表面了。這里目標是:http://www.cit.cn/article/11/index.htm。這是一個列表頁，我們的目的就是采集這個列表頁上全部的文章。有列表頁了，第一步先打開它，把它的內容納入到我們的程序中來。一般用fopen或是file_get_contents這兩個函數，我們這里用fopen作例子。怎么打開它呢？很簡單：$source=fopen("[url=http://www.cit.cn/article/11/index.htm",]http://www.cit.cn/article/11/index.htm",'r'[/url])；實際上已經把內容納入到我們的程序中來了。注意得到的$source是一個資源，不是可處理的文本，所以再用函數fread將內容讀到一個變量中，這次就是真正的可編輯的文本了。例子：

$content=fread($source,99999);后面的數字表示字節數，填個大的就行。你用file_put_contents將$content寫入到一個文本文件，可以看出里面的內容其實就是網頁的源碼。得到了網頁的源碼，我們就要分析里面的文章鏈接地址，這里要用到正則表達式了，[推薦正則表達式教程(http://www.cit.cn/article/7/all/545.1.htm)]。通過查看源代碼，我們可以看到里面文章的鏈接地址全是這個樣子

將數據庫連接代碼封裝在函數里，在需要讀取時調用..

我們就可以寫正則表達式了。$count=preg_match_all("/

(.+?)/",$content,$art_list);

其中數組$art_list[1][$s]里面包含的就是某個文章的鏈接地址。而$art_list[2][$s]包含的就是某一文章的標題。到了這一步就可以算成功了一半了。

接著用for循環依次打每個鏈接，然后像取得標題一樣的方法取得內容即可。以上這些和我在網上找的教程都差不多，但是到了這個for循環網上的教程可就差勁，還沒找到一篇可以說清這個事的文章，剛開始我是用js來幫助循環的，還是用實例說吧，剛開始我是這樣做的：

for($i=0;$i<20;4i++ {

中間就是采集內容的部分了，省略了

采集了一頁，肯定要采集再一頁啊

可是再用fopen打開鏈接時就不行了。請求失敗什么的，用js也不行，最后才知道要用這句echo "";其中aa.php就是我們的程序的文件名， id后面的數字就可以幫助我們實現循環，采集多個頁面。這就是能真正循環起來的關鍵

}

腦子有點難受，寫得有點亂，將就著看吧，在高手看來這可能沒什么大不了的，可是對于我等菜鳥來說，實在是很有幫助。

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的php采集分析,PHP采集程序原理分析篇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： php递归面包屑,php可应用于面包屑导
下一篇： php使用redis生成自增序列号码,R