java 采集 cms_开源 java CMS - FreeCMS2.3 Web页面信息采集
Web頁(yè)面信息采集
從FreeCMS 2.1開始支持
通過簡(jiǎn)單配置即可抓取目標(biāo)網(wǎng)頁(yè)信息,支持增量式采集、關(guān)鍵字替換、定時(shí)采集,同一采集規(guī)則可采集多個(gè)頁(yè)面(靜態(tài)和動(dòng)態(tài)),可采集多種信息屬性,可自動(dòng)審核且靜態(tài)化信息頁(yè)面。
采集規(guī)則管理
從左側(cè)管理菜單點(diǎn)擊采集規(guī)則進(jìn)入。
添加采集規(guī)則
在采集規(guī)則列表下方點(diǎn)擊"添加"按鈕。
填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。
采集規(guī)則屬性說明
采集規(guī)則屬性分為基本、設(shè)置、采集地址,采集屬性,關(guān)鍵詞替換。
一般情況下只要在基本選項(xiàng)卡填寫相關(guān)屬性即可完成。如果需要更多高級(jí)設(shè)置可以使用后面幾個(gè)選項(xiàng)卡。
下面針對(duì)主要屬性進(jìn)行解釋說明。
名稱:采集規(guī)則的名稱。
采集到欄目:采集的信息要添加到那個(gè)欄目。
頁(yè)面編碼:目標(biāo)網(wǎng)頁(yè)的頁(yè)面編碼,默認(rèn)為UTF-8。
采集地址:目標(biāo)網(wǎng)頁(yè)的地址。在基本選項(xiàng)卡中只能設(shè)置一個(gè),想要設(shè)置多個(gè)可以在采集地址選項(xiàng)卡中設(shè)置。
采集調(diào)度:設(shè)置定時(shí)執(zhí)行采集操作,這個(gè)設(shè)置非常重要,只有設(shè)置了采集調(diào)度系統(tǒng)才執(zhí)行采集操作。
內(nèi)容列表開始結(jié)束html:因?yàn)橄到y(tǒng)是通過對(duì)目標(biāo)網(wǎng)頁(yè)內(nèi)容進(jìn)行關(guān)鍵詞截取來提取信息屬性的,所以設(shè)置目標(biāo)屬性的開始結(jié)束html就很重要,一定要設(shè)置為相對(duì)比較唯一的開始結(jié)束html,這樣系統(tǒng)才能正確的截取到目標(biāo)屬性。此屬性主要為了截取目標(biāo)頁(yè)面信息列表的html.
內(nèi)容地址開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容列表html后,使用此屬性截取各個(gè)內(nèi)容地址。
內(nèi)容標(biāo)題開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容地址后,系統(tǒng)會(huì)抓取此內(nèi)容地址的網(wǎng)頁(yè)內(nèi)容,然后根據(jù)此屬性截取內(nèi)容標(biāo)題。內(nèi)容相關(guān)屬性的設(shè)置跟此屬性類似,下面不再贅述。
狀態(tài):啟用狀態(tài)下的采集規(guī)則,系統(tǒng)才會(huì)執(zhí)行。
采集圖片:將信息內(nèi)容中的圖片下載到本地。
自動(dòng)審核通過:將采集的信息直接設(shè)置為已審核狀態(tài)。
使用采集信息點(diǎn)擊量:默認(rèn)采集到的信息的點(diǎn)擊量為0,設(shè)置此屬性和內(nèi)容點(diǎn)擊量開始結(jié)束html后系統(tǒng)會(huì)截取目標(biāo)信息的點(diǎn)擊量,設(shè)置為采集后信息的點(diǎn)擊量。
最多采集內(nèi)容數(shù):默認(rèn)不限制,如果設(shè)置了此屬性,系統(tǒng)會(huì)從采集記錄中統(tǒng)計(jì)此采集規(guī)則已采集了多少條信息,如果超過最多采集內(nèi)容數(shù),系統(tǒng)將不再采集。
將首幅圖片設(shè)為標(biāo)題圖片:如果信息內(nèi)容中有圖片,則提取第一張做為標(biāo)題圖片,并設(shè)置信息為圖片信息。
清除內(nèi)容中的html標(biāo)簽:將信息內(nèi)容中的html標(biāo)簽清除,保留純文本。
當(dāng)內(nèi)容為空時(shí)是否采集:可設(shè)置在內(nèi)容為空時(shí)不采集此信息。
使用采集信息的添加時(shí)間:默認(rèn)采集到的信息的添加時(shí)間為當(dāng)前時(shí)間,設(shè)置此屬性和內(nèi)容添加時(shí)間開始結(jié)束html后系統(tǒng)會(huì)截取目標(biāo)信息的添加時(shí)間,設(shè)置為采集后信息的添加時(shí)間。
采集信息添加時(shí)間格式:默認(rèn)格式為yyyy-MM-dd,如果目標(biāo)頁(yè)面的添加時(shí)間格式不同,需要在這里設(shè)置為正確的日期格式。
采集開始時(shí)間:默認(rèn)為當(dāng)前時(shí)間,如果不到采集開始時(shí)間,系統(tǒng)是不會(huì)采集的。
采集結(jié)束時(shí)間:默認(rèn)為永不結(jié)束,如果超過采集結(jié)束時(shí)間,系統(tǒng)是不會(huì)采集的。
內(nèi)容地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁(yè)使用的是相對(duì)路徑或絕對(duì)路徑,可以設(shè)置內(nèi)容地址的前綴。
圖片地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁(yè)使用的是相對(duì)路徑或絕對(duì)路徑,可以設(shè)置圖片鏈接地址的前綴。
內(nèi)容中A標(biāo)簽鏈接地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁(yè)使用的是相對(duì)路徑或絕對(duì)路徑,可以設(shè)置內(nèi)容中A標(biāo)簽鏈接地址的前綴。
采集地址分為靜態(tài)和動(dòng)態(tài)地址,靜態(tài)地址為固定的地址,動(dòng)態(tài)地址一般指可以分頁(yè)的地址,通過{page}來代表分頁(yè)變量,可以設(shè)置從那一頁(yè)采集到那一頁(yè),如http://www.freetam.cn/list_{page}.html,設(shè)置開始頁(yè)數(shù)為1,結(jié)束頁(yè)數(shù)為10,系統(tǒng)會(huì)自動(dòng)提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有頁(yè)面的數(shù)據(jù)。
一般情況下我們只采集信息的標(biāo)題和內(nèi)容就可以了,系統(tǒng)還提供采集內(nèi)容描述、點(diǎn)擊量、作者、來源、添加時(shí)間屬性的功能。
通過關(guān)鍵詞替換功能,您可以將采集到的信息里面的關(guān)鍵詞替換為自己想要的關(guān)鍵詞。
編輯采集規(guī)則
選擇需要編輯的采集規(guī)則,然后點(diǎn)擊"編輯"按鈕。
注意:同時(shí)只能編輯一個(gè)采集規(guī)則。
填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。
采集
選擇需要采集的采集規(guī)則,然后點(diǎn)擊"采集"按鈕。
注意:同時(shí)只能對(duì)一個(gè)采集規(guī)則進(jìn)行采集操作。
刪除采集規(guī)則
選擇需要?jiǎng)h除的采集規(guī)則,然后點(diǎn)擊"刪除"按鈕。
提示:同時(shí)可以刪除多個(gè)采集規(guī)則。
為了防止誤操作,系統(tǒng)會(huì)提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。
查看采集記錄
從左側(cè)管理菜單點(diǎn)擊采集記錄進(jìn)入。
在這里可以查看到所有web頁(yè)面采集記錄,您可以刪除指定的采集記錄,但并不會(huì)刪除已采集的信息數(shù)據(jù),選擇需要?jiǎng)h除的采集記錄,然后點(diǎn)擊"刪除"按鈕。
提示:同時(shí)可以刪除多個(gè)采集記錄。
為了防止誤操作,系統(tǒng)會(huì)提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。
總結(jié)
以上是生活随笔為你收集整理的java 采集 cms_开源 java CMS - FreeCMS2.3 Web页面信息采集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js:堆栈和队列
- 下一篇: 【工具】Notepad++的一些常用配置