html标记的索引,基于HTML标记分析及中文切词的网页索引研究与实现
摘要:
本文深入研究了HTML標(biāo)記對網(wǎng)頁內(nèi)容的修飾作用,并對大量網(wǎng)頁的結(jié)構(gòu)進(jìn)行了分析,通過對比各種中文文檔的索引和加權(quán)策略以及中文切詞,英文Stemming操作等算法,設(shè)計和實現(xiàn)了基于HTML標(biāo)記的網(wǎng)頁分析和加權(quán)策略與算法,完善了基于詞典的切詞算法. 為了合理地實現(xiàn)對網(wǎng)頁進(jìn)行有效表示和索引,本系統(tǒng)采取了以詞為單位的全文索引的策略,本策略借鑒了傳統(tǒng)文本檢索中tf*idf的索引詞加權(quán)公式,并結(jié)合HTML標(biāo)記分析及詞在網(wǎng)頁中出現(xiàn)的頻率進(jìn)行索引加權(quán),在對此問題的解決中包括HTML標(biāo)記分析,中文切詞,英文Stemming操作等算法,采用了基于詞典的正向最大匹配法,反向最大匹配法及三字交集切詞歧義消解法相結(jié)合的算法對中文文本進(jìn)行切詞,取得了比較滿意的效果. 整個系統(tǒng)在實現(xiàn)時采用了面向?qū)ο蟮某绦蛟O(shè)計技術(shù),數(shù)據(jù)庫技術(shù),JDBC和Java多線程技術(shù)等.通過測試,對中文詞匯的切分達(dá)到了較高的準(zhǔn)確度,并且隨著訓(xùn)練語料的增加可以不斷完善切詞詞典,進(jìn)一步提高切詞的準(zhǔn)確度.以中文切詞,英文Stemming操作和HTML標(biāo)記分析加權(quán)為基礎(chǔ)的索引策略能夠較好的表示網(wǎng)頁的內(nèi)容,同時為基于向量空間模型的相似度計算奠定了基礎(chǔ).
展開
總結(jié)
以上是生活随笔為你收集整理的html标记的索引,基于HTML标记分析及中文切词的网页索引研究与实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php mysql电商网站设计与制作_赢
- 下一篇: ci php做记录删除,CI(CodeI