Web数据挖掘小论文
1、目的意義
Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web文檔和Web服務(wù)器中發(fā)現(xiàn)并提取人們感興趣的信息或知識的過程。涉及到Internet技術(shù)、人工智能、計算機(jī)語言學(xué)、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。
Web包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,從以下的分析中可以看到,對Web進(jìn)行有效的知識發(fā)現(xiàn)具有極大的挑戰(zhàn)性:Web挖掘?qū)ο蠖鄻有?#xff1b;Web頁面的復(fù)雜性;Web作為信息源的極強(qiáng)動態(tài)性;Web用戶群體的廣泛性;Web頁面的有用價值卻極低。隨著大數(shù)據(jù)時代的到來,Web數(shù)據(jù)挖掘在大數(shù)據(jù)中的重要地位日益凸顯。
2、現(xiàn)狀
Web數(shù)據(jù)挖掘是一個更具挑戰(zhàn)性的課題,它實現(xiàn)對Web存取模式、Web結(jié)構(gòu)規(guī)則和動態(tài)的Web內(nèi)容的查找。一般地Web挖掘可分為3類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。Web數(shù)據(jù)挖掘通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。大數(shù)據(jù)技術(shù)與傳統(tǒng)Web數(shù)據(jù)挖掘相比,整合了大規(guī)模并行處理數(shù)據(jù)庫、數(shù)據(jù)挖掘網(wǎng)絡(luò)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。
3、創(chuàng)新設(shè)想與方案
Web數(shù)據(jù)挖掘的對象是大量、異質(zhì)、分布的Web文檔.以Web 作為中間件對數(shù)據(jù)庫進(jìn)行挖掘,以及對Web服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開展的挖掘工作,仍屬于傳統(tǒng)的數(shù)據(jù)挖掘的范疇.其次, Web 在邏輯上是一個由文檔節(jié)點(diǎn)和超鏈構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于 Web 結(jié)構(gòu)的。此外,由于 Web 文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的, 且缺乏機(jī)器可理解的語義,而數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并利用關(guān)系表格等存儲結(jié)構(gòu)來發(fā)現(xiàn)知識,因此有些數(shù)據(jù)挖掘技術(shù)并不適用于 Web 挖掘,即使可用也需要建立在對Web文檔進(jìn)行預(yù)處理的基礎(chǔ)之上。
?????? 首先,確定Web數(shù)據(jù)挖掘的任務(wù),針對于Internet網(wǎng)絡(luò)上海量的數(shù)據(jù),確定較為清晰的挖掘任務(wù)才能提高數(shù)據(jù)的準(zhǔn)確率,挖掘任務(wù)包括確定挖掘的主題領(lǐng)域、挖掘的限定范圍、挖掘的內(nèi)容大小、挖掘的精度要求等等。然后利用網(wǎng)絡(luò)爬蟲或者主題搜索引擎從網(wǎng)絡(luò)上抓取信息數(shù)據(jù),抓取過程中需要利用互聯(lián)網(wǎng)云平臺和分布式數(shù)據(jù)庫,并行采集數(shù)據(jù)。然后對抓取的數(shù)據(jù),如Web頁面、文檔以及圖片等等,將這些數(shù)據(jù)進(jìn)行清理,建立索引,去噪,提取有用的信息,即對數(shù)據(jù)進(jìn)行清洗或者整理。然后對得到的數(shù)據(jù)進(jìn)行多維分析、統(tǒng)計分析、挖掘分析等,最后把分析得到的數(shù)據(jù)進(jìn)行可視化。
?????? 可以將Web數(shù)據(jù)挖掘進(jìn)行以上的一些改進(jìn),(1)由于從互聯(lián)網(wǎng)上抓取數(shù)據(jù)或者從互聯(lián)網(wǎng)的用戶日志中分析數(shù)據(jù)時,數(shù)據(jù)量很大,如果針對所有的數(shù)據(jù)都進(jìn)行采集,開銷非常大,可以將抓取范圍限定,針對于基于統(tǒng)計的Web數(shù)據(jù)挖掘,取可用解不會影響數(shù)據(jù)的分析統(tǒng)計,不需要取最優(yōu)解而花費(fèi)大量的開銷。(2)由于互聯(lián)網(wǎng)上數(shù)據(jù)具有高度的重復(fù)性,對數(shù)據(jù)進(jìn)行清洗時,會占用很大開銷,因此盡量從不交叉的搜索域中采集數(shù)據(jù)。(3)建立學(xué)習(xí)規(guī)則以提高爬取的精準(zhǔn)度,并減少冗余。將挖掘的內(nèi)容進(jìn)行定期的抽樣采集,記錄采集結(jié)果,多次對比,建立學(xué)習(xí)規(guī)則,如果在發(fā)現(xiàn)與現(xiàn)有獲得的學(xué)習(xí)規(guī)則差異很大或者完全不相關(guān)聯(lián)時,可以增加抓取規(guī)則,以縮小抓取的范圍。(4)充分利用url鏈接,page-rank算法基于url鏈接,url鏈接對于Web數(shù)據(jù)挖掘至關(guān)重要,url鏈接中也包括重要的數(shù)據(jù)內(nèi)容,合理的識別url鏈接將提高Web數(shù)據(jù)挖掘的效率。
4、應(yīng)用背景
Web數(shù)據(jù)挖掘的應(yīng)用非常廣泛,它已經(jīng)廣泛應(yīng)用于金融業(yè)、遠(yuǎn)程通信業(yè)、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,對它的應(yīng)用研究正在成為一個熱點(diǎn)。Web挖掘的應(yīng)用前景主要表現(xiàn)在:電子商務(wù)、電子政務(wù)、網(wǎng)站設(shè)計以及搜索引擎。在大數(shù)據(jù)時代,Web數(shù)據(jù)挖掘的重要性更加凸顯,廣泛應(yīng)用于商業(yè)數(shù)據(jù)分析、輿情分析、趨勢分析、病情監(jiān)控、搜索引擎等等。
總結(jié)
以上是生活随笔為你收集整理的Web数据挖掘小论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第七十六期:3000台服务器不宕机,微博
- 下一篇: java面试题25 在程序代码中写的注释