如何批量保存html,如何批量保存网页信息
如何批量保存網(wǎng)頁(yè)信息
現(xiàn)在我們利用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)探索者來(lái)批量保存這些聯(lián)系地址,就能大大減少重復(fù)勞動(dòng)的工作量。
下載地址:http://www2.skycn.com/soft/14620.html
一、查找頁(yè)面規(guī)律
在使用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)探索者前我們要摸清頁(yè)面的規(guī)律,一般可以從兩、三個(gè)所需頁(yè)面的鏈接地址對(duì)比中找到規(guī)律。在“四川”的企業(yè)列表中進(jìn)入第二、第三頁(yè),發(fā)現(xiàn)它們的地址分別為:http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=,可見(jiàn)地址變化的就是p的值,依此類推就可以得出p=4是第四頁(yè)、p=5就是第五頁(yè)……這里的p就是數(shù)據(jù)頁(yè)的url關(guān)鍵字,其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1,后面的&t=company&terms=四川&c=則是url2了。
二、設(shè)置規(guī)則
清楚頁(yè)面規(guī)律后還需要為要保存的網(wǎng)頁(yè)信息建立一個(gè)規(guī)則。開(kāi)啟網(wǎng)絡(luò)數(shù)據(jù)庫(kù)探索者,在“文件”下點(diǎn)擊“新建規(guī)則文件”打開(kāi)“設(shè)置規(guī)則”窗口(圖1)。首先設(shè)置“一級(jí)規(guī)則”,一級(jí)規(guī)則的內(nèi)容就是類似制藥企業(yè)列表這樣的一級(jí)數(shù)據(jù)了。在“規(guī)則用途”方面是根據(jù)所要保存的頁(yè)面數(shù)據(jù)大小來(lái)定,這里的各企業(yè)聯(lián)系方法數(shù)據(jù)較小就勾選“提取一般數(shù)據(jù)”,接下來(lái)給規(guī)則輸入一個(gè)名稱并輸入數(shù)據(jù)頁(yè)的url1、url2和關(guān)鍵字。
提示:如果沒(méi)有url2就以空格代替;填寫(xiě)url關(guān)鍵字的時(shí)候要注意其大小寫(xiě)要和實(shí)際地址中的一致。
因?yàn)樵陧?yè)面中我們只需要其中的列表部分,這里要設(shè)置一下列表部分的“起始關(guān)鍵字”,一般可以取列表上一行的固定文字,這里取用“共有159家企業(yè)”;“每頁(yè)行數(shù)”則是從關(guān)鍵字開(kāi)始一直到列表結(jié)束的行數(shù),包括空格;“提取頁(yè)數(shù)”就是列表的頁(yè)數(shù)了,這里共有11頁(yè),就設(shè)置為“1到11”,“遞增值”一般設(shè)置為1。
我們真正所需的企業(yè)聯(lián)系信息是列表中的各個(gè)企業(yè)的鏈接頁(yè)面值,即二級(jí)數(shù)據(jù),因此在設(shè)置完“一級(jí)規(guī)則”后勾選“二級(jí)規(guī)則”,進(jìn)入“二級(jí)設(shè)置”選項(xiàng)卡,勾選“使用提取行數(shù)”,“二級(jí)鏈接的url范圍”的選擇可先在軟件自帶的瀏覽器中打開(kāi)一個(gè)一級(jí)數(shù)據(jù)網(wǎng)頁(yè)如http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=,然后按下“二級(jí)鏈接的url范圍”后的小按鈕,在彈出的窗口中定位好所需網(wǎng)頁(yè)資料的序號(hào)(圖2),若需要28~42之間的二級(jí)數(shù)據(jù),則“二級(jí)鏈接的url范圍”就是“28到42”;然后像設(shè)置“一級(jí)規(guī)則”一樣設(shè)置好“二級(jí)數(shù)據(jù)頁(yè)的起始關(guān)鍵字”和“提取行數(shù)”就可以“確定”保存規(guī)則了。
提示:在選擇“使用提取行數(shù)”和“使用結(jié)束關(guān)鍵字”時(shí)要注意,如果二級(jí)數(shù)據(jù)的行數(shù)固定就選“使用提取行數(shù)”選項(xiàng),否則選“使用結(jié)束關(guān)鍵字”。
三、批量提取數(shù)據(jù)
規(guī)則設(shè)置完畢返回軟件主界面就可以提取所需要的網(wǎng)頁(yè)信息了。在“規(guī)則”下選擇剛才建立的規(guī)則文件“四川制藥企業(yè)”,單擊“提取”按鈕就可以執(zhí)行數(shù)據(jù)庫(kù)的信息提取了。提取完畢,在“數(shù)據(jù)瀏覽”中可以查看到與一級(jí)數(shù)據(jù)相對(duì)應(yīng)的二級(jí)數(shù)據(jù)即各制藥企業(yè)的具體聯(lián)系方法了。運(yùn)行“文件→提取的數(shù)據(jù)另存為文本”就能保存所需要的網(wǎng)頁(yè)信息了。
某些網(wǎng)站提供的網(wǎng)頁(yè)信息是以分頁(yè)形式發(fā)布出來(lái)的,這樣的網(wǎng)頁(yè)具有一定的規(guī)律性且數(shù)據(jù)量大,要想保存這樣的網(wǎng)頁(yè)若依靠手工逐一操作,工作量太大。使用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)探索者可以直接讀取網(wǎng)站數(shù)據(jù)庫(kù)來(lái)保存網(wǎng)頁(yè)信息,能夠有效減少重復(fù)勞動(dòng),減輕工作量。
總結(jié)
以上是生活随笔為你收集整理的如何批量保存html,如何批量保存网页信息的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: i5 9400f和i7 7700k哪个好
- 下一篇: Linux编辑f2fs,Linux 5.