电子商务应用课程知识整理 第四章-搜索引擎
文章目錄
- 一、搜索引擎
- 定義
- 分類(lèi)
- 1.全文搜索引擎
- 2.目錄索引
- 3.元搜索引擎
- 4.垂直搜索引擎
- 工作原理
- 1.抓取網(wǎng)頁(yè)
- 2.處理網(wǎng)頁(yè)
- 3.提供檢索服務(wù)
- 核心算法
- 組成部分
- 發(fā)展趨勢(shì)
- 二、網(wǎng)絡(luò)蜘蛛
- 三、中文分詞
- 基于詞典的分詞方法
- 基于統(tǒng)計(jì)的分詞方法
- 基于理解的分詞方法
- 分詞難點(diǎn)
- 1.歧義識(shí)別
- 2.新詞識(shí)別
- 四、鏈接分析
- 1. Web圖
- 2. 錨文字
- 3. 隨機(jī)游走模型
- 4. 子集傳播模型
- 5. PageRank算法
一、搜索引擎
因特網(wǎng)包括成百上千的網(wǎng)站,設(shè)計(jì)數(shù)以?xún)|計(jì)的資源。因此需要通過(guò)搜索引擎了快速定位到所需資源,搜索引擎技術(shù)對(duì)網(wǎng)站的運(yùn)營(yíng)具有非常重要的意義。
定義
搜索引擎(Search Engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序收集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,將處理后的信息顯示給用戶(hù),是為用戶(hù)提供檢索服務(wù)的系統(tǒng)。
分類(lèi)
1.全文搜索引擎
是名副其實(shí)的搜索引擎,代表有谷歌、百度。他們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶(hù)查詢(xún)條件相匹配的記錄,按一定順序行會(huì)結(jié)果。
根據(jù)搜索結(jié)果的來(lái)源不同,全文搜索引擎可分為兩類(lèi),一類(lèi)擁有自己的網(wǎng)頁(yè)抓取、索引、檢索系統(tǒng),有獨(dú)立的蜘蛛程序(Spider)(或稱(chēng)爬蟲(chóng)Crawler、機(jī)器人Rovot),能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用;另一類(lèi)則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果。
特點(diǎn)是搜全率比較高。
搜索引擎的自動(dòng)信息搜索功能分為兩種:一種是定期搜索,即內(nèi)閣一段時(shí)間,搜索引擎自動(dòng)派出蜘蛛程序,對(duì)一定IP地址范圍類(lèi)的互聯(lián)網(wǎng)進(jìn)行檢索。另一是提交網(wǎng)站搜索,即網(wǎng)站的擁有者主動(dòng)向搜索引擎提交網(wǎng)址。
2.目錄索引
是將網(wǎng)站分門(mén)別類(lèi)地存放在相應(yīng)的目錄中,用戶(hù)在查詢(xún)信息時(shí),可以選擇關(guān)鍵詞搜索,也可按分類(lèi)目錄逐層查找。嚴(yán)格意義上,不算真正的搜索引擎,只是按目錄分類(lèi)的網(wǎng)站鏈接列表,代表有雅虎、新浪分類(lèi)目錄搜索。
3.元搜索引擎
元搜索引擎(Meta Search Engine)在接受用戶(hù)查詢(xún)請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶(hù)。在搜索結(jié)果方面,有的直接按來(lái)源排列搜索結(jié)果,有的則按自定規(guī)則將結(jié)果重新排列。
4.垂直搜索引擎
垂直引擎專(zhuān)注于特定的領(lǐng)域和搜索需求,在其特定的領(lǐng)域有更好的用戶(hù)體驗(yàn)。
特點(diǎn)是所需的硬件成本低、用戶(hù)有需求特定、查詢(xún)方式多樣。
工作原理
1.抓取網(wǎng)頁(yè)
網(wǎng)頁(yè)抓取程序順著網(wǎng)頁(yè)中的鏈接,連續(xù)地抓取網(wǎng)頁(yè),被抓取的網(wǎng)頁(yè)被稱(chēng)之為網(wǎng)頁(yè)快照。
2.處理網(wǎng)頁(yè)
搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中最重要的是提取關(guān)鍵詞,建立索引文件。其他預(yù)處理工作包括去除重復(fù)網(wǎng)頁(yè)、分詞、判斷網(wǎng)頁(yè)類(lèi)型、分析超鏈接、計(jì)算網(wǎng)頁(yè)重要度/豐富度等。
3.提供檢索服務(wù)
用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè)。為用戶(hù)提供網(wǎng)頁(yè)標(biāo)題和URL,同時(shí)提供一段摘要和其他信息。
核心算法
- 網(wǎng)頁(yè)抓取程序
- 關(guān)鍵詞提取
- 索引文件創(chuàng)建方式
- 重復(fù)網(wǎng)頁(yè)合并
- 結(jié)果排序算法
- 中文分詞算法
- 網(wǎng)頁(yè)類(lèi)型判斷
- 超鏈接分析(語(yǔ)言判斷:meta標(biāo)簽、字符編碼、內(nèi)容分析)
- 網(wǎng)頁(yè)重要性與豐富度計(jì)算
組成部分
- 搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和收集信息。
常使用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新速度。
要求盡可能多、盡可能快地搜索各種類(lèi)型的新信息,定期更新搜索過(guò)的舊信息。目前有兩種搜索策略:- 從一個(gè)起始URL集合(通常為一些非常主流、包含很多鏈接的站點(diǎn))開(kāi)始,循著這些URL中的超鏈接,以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。
- 將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。
- 索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。
索引表一般使用倒排表,即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系。
索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須使用即時(shí)索引。
一個(gè)搜索引擎的有效性很大程度上取決于索引的質(zhì)量。
索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種。- 客觀索引項(xiàng)與文檔的語(yǔ)音內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度;
- 內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單詞等。
可以分為單項(xiàng)索引和多項(xiàng)索引(短語(yǔ)索引項(xiàng))。- 單項(xiàng)索引對(duì)于英文來(lái)講是取單詞,比較容易提取。對(duì)于中文,必須進(jìn)行詞語(yǔ)的切分(分詞技術(shù))
一般要給單項(xiàng)索引項(xiàng)賦予一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢(xún)結(jié)果的相關(guān)度,使用方法一般有統(tǒng)計(jì)法、信息論法和概率法。 - 短語(yǔ)索引項(xiàng)提取方式有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法,
- 單項(xiàng)索引對(duì)于英文來(lái)講是取單詞,比較容易提取。對(duì)于中文,必須進(jìn)行詞語(yǔ)的切分(分詞技術(shù))
- 檢索器:其功能是根據(jù)用戶(hù)的查詢(xún)在索引庫(kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要的輸出結(jié)果排序,并能按用戶(hù)的查詢(xún)需求合理反饋信息。
- 用戶(hù)接口(HTML頁(yè)面):接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查詢(xún)項(xiàng)。
主要目的是方便用戶(hù)使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。
用戶(hù)接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。- 簡(jiǎn)單接口只提供用戶(hù)輸入查詢(xún)串的文本框;
- 復(fù)雜接口可以讓用戶(hù)對(duì)查詢(xún)進(jìn)行限制,如邏輯運(yùn)算、相近關(guān)系、出現(xiàn)位置(標(biāo)題、內(nèi)容)、域名范圍、信息時(shí)間、長(zhǎng)度。
發(fā)展趨勢(shì)
- 提高搜索引擎對(duì)用戶(hù)檢索提問(wèn)的理解
- 對(duì)檢索結(jié)果進(jìn)行處理
- 確定搜索引擎信息收集范圍,提高搜索引擎的針對(duì)性。
- 將搜索引擎的技術(shù)開(kāi)發(fā)重點(diǎn)放在對(duì)檢索結(jié)果的處理上,提供更優(yōu)化的檢索結(jié)果。
- 搜索引擎的分類(lèi)
- 專(zhuān)家系統(tǒng)。
二、網(wǎng)絡(luò)蜘蛛
三、中文分詞
分詞時(shí)將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。
基于詞典的分詞方法
按照一定策略將待分析的漢字串與一個(gè)詞典中的詞條進(jìn)行匹配,若再詞典中找到該字符串,則匹配成功。
正向最大匹配算法(FMM):設(shè)m=5,根據(jù)正向最大匹配原則,先對(duì)句子取前5個(gè)字符,在詞典中進(jìn)行查找:若匹配,則切下該詞,對(duì)剩余句子繼續(xù)迭代;若不匹配,則m=m-1,進(jìn)行匹配。
中文中90%的文本,FMM和RMM(逆向最大匹配)結(jié)果完全重合且正確;
9%的句子FMM和RMM結(jié)果不同,但其中必有一個(gè)正確(歧義檢測(cè)成功);
1%的句子FMM和RMM結(jié)果都不正確(無(wú)論是否相同)
故,雙向最大匹配算法(BMM)在中文信息系統(tǒng)應(yīng)用廣泛。
基于統(tǒng)計(jì)的分詞方法
在給定大量的已經(jīng)分詞的文本的前提下,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語(yǔ)切分的規(guī)律(訓(xùn)練),從而實(shí)現(xiàn)對(duì)未知文本的切分。
基于理解的分詞方法
讓計(jì)算機(jī)模擬人對(duì)句子的理解。基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析。
分詞難點(diǎn)
1.歧義識(shí)別
- 交叉型歧義:詞語(yǔ)ABC可分為AB/C和A/BC
- 組合型歧義:詞語(yǔ)AB可分為AB和A/B
- 混合型歧義:同時(shí)包含交叉性和組合型歧義
中文文本中,交際型歧義和組合型歧義出現(xiàn)的比例約為1:22。
全切分方法:依據(jù)詞表,給出輸入文本的所有可能切分結(jié)果,然后根據(jù)一定的原則(切分次數(shù)最少或概率最大),選擇一種結(jié)果作為最終切分結(jié)果。
2.新詞識(shí)別
指已有的詞表中沒(méi)有收錄的詞,或者已有的訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)的詞(集外詞)。
對(duì)于大規(guī)模真實(shí)文本來(lái)說(shuō),未登錄詞對(duì)于分詞精度的影響遠(yuǎn)遠(yuǎn)大于歧義切分。
四、鏈接分析
1. Web圖
如果將一個(gè)網(wǎng)頁(yè)抽象成一個(gè)個(gè)節(jié)點(diǎn),而將網(wǎng)頁(yè)之間的鏈接理解成一條有向邊,則可以把整個(gè)互聯(lián)網(wǎng)抽象為一個(gè)一個(gè)包含頁(yè)面節(jié)點(diǎn)和節(jié)點(diǎn)之間聯(lián)系邊的有向圖,稱(chēng)之為web圖。
2. 錨文字
頁(yè)面內(nèi)某個(gè)出鏈附近的一些描述性文字。
3. 隨機(jī)游走模型
用戶(hù)隨機(jī)選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè),從該網(wǎng)頁(yè)類(lèi)所含的超鏈接隨機(jī)選擇一個(gè)頁(yè)面繼續(xù)瀏覽,重復(fù)進(jìn)行,直到對(duì)某個(gè)主題感到厭倦而重新隨機(jī)選擇另一個(gè)網(wǎng)頁(yè)瀏覽。
4. 子集傳播模型
將互聯(lián)網(wǎng)網(wǎng)頁(yè)按照一定的規(guī)則劃分為兩個(gè)甚至多個(gè)子集,從某個(gè)具有特殊性質(zhì)的子集出發(fā),給與子集類(lèi)網(wǎng)頁(yè)初始權(quán)值,再根據(jù)這個(gè)特殊子集類(lèi)網(wǎng)頁(yè)和其他網(wǎng)頁(yè)之間的連接關(guān)系,按照一定的方式將權(quán)值傳遞給其他網(wǎng)頁(yè)。
思想:重要的網(wǎng)址,其連接的網(wǎng)頁(yè)重要性也高。
5. PageRank算法
基本思想:
- 認(rèn)可度高度網(wǎng)頁(yè)越重要,即反向鏈接(入鏈)越多的網(wǎng)頁(yè)越重要。
- 反向鏈接的原網(wǎng)頁(yè)質(zhì)量越高,被這些高質(zhì)量網(wǎng)頁(yè)的鏈接指向的網(wǎng)頁(yè)越重要。
- 出鏈越少的網(wǎng)頁(yè)越重要。
轉(zhuǎn)移矩陣每一列代表一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)所有出鏈平分權(quán)值。如,A對(duì)B、D均有鏈接,則矩陣第一列為[0, 0.5, 0, 0.5]
總結(jié)
以上是生活随笔為你收集整理的电子商务应用课程知识整理 第四章-搜索引擎的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 电子商务应用课程知识整理 第二章-电子商
- 下一篇: Oracle数据库体系结构