當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

电子商务应用课程知识整理第四章-搜索引擎

發(fā)布時(shí)間：2023/12/4 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了电子商务应用课程知识整理第四章-搜索引擎小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

一、搜索引擎
- 定義
- 分類(lèi)
- - 1.全文搜索引擎
  - 2.目錄索引
  - 3.元搜索引擎
  - 4.垂直搜索引擎
- 工作原理
- - 1.抓取網(wǎng)頁(yè)
  - 2.處理網(wǎng)頁(yè)
  - 3.提供檢索服務(wù)
- 核心算法
- 組成部分
- 發(fā)展趨勢(shì)
二、網(wǎng)絡(luò)蜘蛛
三、中文分詞
- 基于詞典的分詞方法
- 基于統(tǒng)計(jì)的分詞方法
- 基于理解的分詞方法
- 分詞難點(diǎn)
- - 1.歧義識(shí)別
  - 2.新詞識(shí)別
四、鏈接分析
- 1. Web圖
- 2. 錨文字
- 3. 隨機(jī)游走模型
- 4. 子集傳播模型
- 5. PageRank算法

一、搜索引擎

因特網(wǎng)包括成百上千的網(wǎng)站，設(shè)計(jì)數(shù)以?xún)|計(jì)的資源。因此需要通過(guò)搜索引擎了快速定位到所需資源，搜索引擎技術(shù)對(duì)網(wǎng)站的運(yùn)營(yíng)具有非常重要的意義。

定義

搜索引擎（Search Engine）是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序收集互聯(lián)網(wǎng)上的信息，在對(duì)信息進(jìn)行組織和處理后，將處理后的信息顯示給用戶(hù)，是為用戶(hù)提供檢索服務(wù)的系統(tǒng)。

分類(lèi)

1.全文搜索引擎

是名副其實(shí)的搜索引擎，代表有谷歌、百度。他們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息（以文字為主），建立起數(shù)據(jù)庫(kù)，并能檢索與用戶(hù)查詢(xún)條件相匹配的記錄，按一定順序行會(huì)結(jié)果。

根據(jù)搜索結(jié)果的來(lái)源不同，全文搜索引擎可分為兩類(lèi)，一類(lèi)擁有自己的網(wǎng)頁(yè)抓取、索引、檢索系統(tǒng)，有獨(dú)立的蜘蛛程序（Spider）（或稱(chēng)爬蟲(chóng)Crawler、機(jī)器人Rovot），能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù)，搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用；另一類(lèi)則是租用其他搜索引擎的數(shù)據(jù)庫(kù)，并按自定的格式排列搜索結(jié)果。

特點(diǎn)是搜全率比較高。

搜索引擎的自動(dòng)信息搜索功能分為兩種：一種是定期搜索，即內(nèi)閣一段時(shí)間，搜索引擎自動(dòng)派出蜘蛛程序，對(duì)一定IP地址范圍類(lèi)的互聯(lián)網(wǎng)進(jìn)行檢索。另一是提交網(wǎng)站搜索，即網(wǎng)站的擁有者主動(dòng)向搜索引擎提交網(wǎng)址。

2.目錄索引

是將網(wǎng)站分門(mén)別類(lèi)地存放在相應(yīng)的目錄中，用戶(hù)在查詢(xún)信息時(shí)，可以選擇關(guān)鍵詞搜索，也可按分類(lèi)目錄逐層查找。嚴(yán)格意義上，不算真正的搜索引擎，只是按目錄分類(lèi)的網(wǎng)站鏈接列表，代表有雅虎、新浪分類(lèi)目錄搜索。

3.元搜索引擎

元搜索引擎（Meta Search Engine）在接受用戶(hù)查詢(xún)請(qǐng)求后，同時(shí)在多個(gè)搜索引擎上搜索，并將結(jié)果返回給用戶(hù)。在搜索結(jié)果方面，有的直接按來(lái)源排列搜索結(jié)果，有的則按自定規(guī)則將結(jié)果重新排列。

4.垂直搜索引擎

垂直引擎專(zhuān)注于特定的領(lǐng)域和搜索需求，在其特定的領(lǐng)域有更好的用戶(hù)體驗(yàn)。

特點(diǎn)是所需的硬件成本低、用戶(hù)有需求特定、查詢(xún)方式多樣。

工作原理

1.抓取網(wǎng)頁(yè)

網(wǎng)頁(yè)抓取程序順著網(wǎng)頁(yè)中的鏈接，連續(xù)地抓取網(wǎng)頁(yè)，被抓取的網(wǎng)頁(yè)被稱(chēng)之為網(wǎng)頁(yè)快照。

2.處理網(wǎng)頁(yè)

搜索引擎抓到網(wǎng)頁(yè)后，還要做大量的預(yù)處理工作，才能提供檢索服務(wù)。其中最重要的是提取關(guān)鍵詞，建立索引文件。其他預(yù)處理工作包括去除重復(fù)網(wǎng)頁(yè)、分詞、判斷網(wǎng)頁(yè)類(lèi)型、分析超鏈接、計(jì)算網(wǎng)頁(yè)重要度/豐富度等。

3.提供檢索服務(wù)

用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索，搜索引擎從索引數(shù)據(jù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè)。為用戶(hù)提供網(wǎng)頁(yè)標(biāo)題和URL，同時(shí)提供一段摘要和其他信息。

核心算法

網(wǎng)頁(yè)抓取程序
關(guān)鍵詞提取
索引文件創(chuàng)建方式
重復(fù)網(wǎng)頁(yè)合并
結(jié)果排序算法
中文分詞算法
網(wǎng)頁(yè)類(lèi)型判斷
超鏈接分析（語(yǔ)言判斷：meta標(biāo)簽、字符編碼、內(nèi)容分析）
網(wǎng)頁(yè)重要性與豐富度計(jì)算

組成部分

搜索器：其功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和收集信息。
常使用分布式、并行計(jì)算技術(shù)，以提高信息發(fā)現(xiàn)和更新速度。
要求盡可能多、盡可能快地搜索各種類(lèi)型的新信息，定期更新搜索過(guò)的舊信息。目前有兩種搜索策略：
- 從一個(gè)起始URL集合（通常為一些非常主流、包含很多鏈接的站點(diǎn)）開(kāi)始，循著這些URL中的超鏈接，以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。
- 將Web空間按照域名、IP地址或國(guó)家域名劃分，每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。
索引器：其功能是理解搜索器所搜索到的信息，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫(kù)的索引表。
索引表一般使用倒排表，即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置，以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系。
索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí)，必須使用即時(shí)索引。
一個(gè)搜索引擎的有效性很大程度上取決于索引的質(zhì)量。
索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種。
- 客觀索引項(xiàng)與文檔的語(yǔ)音內(nèi)容無(wú)關(guān)，如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度；
- 內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單詞等。
  可以分為單項(xiàng)索引和多項(xiàng)索引（短語(yǔ)索引項(xiàng)）。
  - 單項(xiàng)索引對(duì)于英文來(lái)講是取單詞，比較容易提取。對(duì)于中文，必須進(jìn)行詞語(yǔ)的切分（分詞技術(shù)）
    一般要給單項(xiàng)索引項(xiàng)賦予一個(gè)權(quán)值，以表示該索引項(xiàng)對(duì)文檔的區(qū)分度，同時(shí)用來(lái)計(jì)算查詢(xún)結(jié)果的相關(guān)度，使用方法一般有統(tǒng)計(jì)法、信息論法和概率法。
  - 短語(yǔ)索引項(xiàng)提取方式有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法，
檢索器：其功能是根據(jù)用戶(hù)的查詢(xún)在索引庫(kù)中快速檢索文檔，進(jìn)行相關(guān)度評(píng)價(jià)，對(duì)將要的輸出結(jié)果排序，并能按用戶(hù)的查詢(xún)需求合理反饋信息。
用戶(hù)接口（HTML頁(yè)面）：接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查詢(xún)項(xiàng)。
主要目的是方便用戶(hù)使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。
用戶(hù)接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。
- 簡(jiǎn)單接口只提供用戶(hù)輸入查詢(xún)串的文本框；
- 復(fù)雜接口可以讓用戶(hù)對(duì)查詢(xún)進(jìn)行限制，如邏輯運(yùn)算、相近關(guān)系、出現(xiàn)位置（標(biāo)題、內(nèi)容）、域名范圍、信息時(shí)間、長(zhǎng)度。

發(fā)展趨勢(shì)

提高搜索引擎對(duì)用戶(hù)檢索提問(wèn)的理解
對(duì)檢索結(jié)果進(jìn)行處理
確定搜索引擎信息收集范圍，提高搜索引擎的針對(duì)性。
將搜索引擎的技術(shù)開(kāi)發(fā)重點(diǎn)放在對(duì)檢索結(jié)果的處理上，提供更優(yōu)化的檢索結(jié)果。
搜索引擎的分類(lèi)
專(zhuān)家系統(tǒng)。

二、網(wǎng)絡(luò)蜘蛛

三、中文分詞

分詞時(shí)將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。

基于詞典的分詞方法

按照一定策略將待分析的漢字串與一個(gè)詞典中的詞條進(jìn)行匹配，若再詞典中找到該字符串，則匹配成功。
正向最大匹配算法（FMM）：設(shè)m=5，根據(jù)正向最大匹配原則，先對(duì)句子取前5個(gè)字符，在詞典中進(jìn)行查找：若匹配，則切下該詞，對(duì)剩余句子繼續(xù)迭代；若不匹配，則m=m-1，進(jìn)行匹配。

中文中90%的文本，FMM和RMM（逆向最大匹配）結(jié)果完全重合且正確；
9%的句子FMM和RMM結(jié)果不同，但其中必有一個(gè)正確（歧義檢測(cè)成功）；
1%的句子FMM和RMM結(jié)果都不正確（無(wú)論是否相同）
故，雙向最大匹配算法（BMM）在中文信息系統(tǒng)應(yīng)用廣泛。

基于統(tǒng)計(jì)的分詞方法

在給定大量的已經(jīng)分詞的文本的前提下，利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語(yǔ)切分的規(guī)律（訓(xùn)練），從而實(shí)現(xiàn)對(duì)未知文本的切分。

基于理解的分詞方法

讓計(jì)算機(jī)模擬人對(duì)句子的理解。基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析。

分詞難點(diǎn)

1.歧義識(shí)別

交叉型歧義：詞語(yǔ)ABC可分為AB/C和A/BC
組合型歧義：詞語(yǔ)AB可分為AB和A/B
混合型歧義：同時(shí)包含交叉性和組合型歧義

中文文本中，交際型歧義和組合型歧義出現(xiàn)的比例約為1：22。

全切分方法：依據(jù)詞表，給出輸入文本的所有可能切分結(jié)果，然后根據(jù)一定的原則（切分次數(shù)最少或概率最大），選擇一種結(jié)果作為最終切分結(jié)果。

2.新詞識(shí)別

指已有的詞表中沒(méi)有收錄的詞，或者已有的訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)的詞（集外詞）。
對(duì)于大規(guī)模真實(shí)文本來(lái)說(shuō)，未登錄詞對(duì)于分詞精度的影響遠(yuǎn)遠(yuǎn)大于歧義切分。

四、鏈接分析

1. Web圖

如果將一個(gè)網(wǎng)頁(yè)抽象成一個(gè)個(gè)節(jié)點(diǎn)，而將網(wǎng)頁(yè)之間的鏈接理解成一條有向邊，則可以把整個(gè)互聯(lián)網(wǎng)抽象為一個(gè)一個(gè)包含頁(yè)面節(jié)點(diǎn)和節(jié)點(diǎn)之間聯(lián)系邊的有向圖，稱(chēng)之為web圖。

2. 錨文字

頁(yè)面內(nèi)某個(gè)出鏈附近的一些描述性文字。

3. 隨機(jī)游走模型

用戶(hù)隨機(jī)選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè)，從該網(wǎng)頁(yè)類(lèi)所含的超鏈接隨機(jī)選擇一個(gè)頁(yè)面繼續(xù)瀏覽，重復(fù)進(jìn)行，直到對(duì)某個(gè)主題感到厭倦而重新隨機(jī)選擇另一個(gè)網(wǎng)頁(yè)瀏覽。

4. 子集傳播模型

將互聯(lián)網(wǎng)網(wǎng)頁(yè)按照一定的規(guī)則劃分為兩個(gè)甚至多個(gè)子集，從某個(gè)具有特殊性質(zhì)的子集出發(fā)，給與子集類(lèi)網(wǎng)頁(yè)初始權(quán)值，再根據(jù)這個(gè)特殊子集類(lèi)網(wǎng)頁(yè)和其他網(wǎng)頁(yè)之間的連接關(guān)系，按照一定的方式將權(quán)值傳遞給其他網(wǎng)頁(yè)。
思想：重要的網(wǎng)址，其連接的網(wǎng)頁(yè)重要性也高。

5. PageRank算法

基本思想：

認(rèn)可度高度網(wǎng)頁(yè)越重要，即反向鏈接（入鏈）越多的網(wǎng)頁(yè)越重要。
反向鏈接的原網(wǎng)頁(yè)質(zhì)量越高，被這些高質(zhì)量網(wǎng)頁(yè)的鏈接指向的網(wǎng)頁(yè)越重要。
出鏈越少的網(wǎng)頁(yè)越重要。

轉(zhuǎn)移矩陣每一列代表一個(gè)節(jié)點(diǎn)，該節(jié)點(diǎn)所有出鏈平分權(quán)值。如，A對(duì)B、D均有鏈接，則矩陣第一列為[0, 0.5, 0, 0.5]

總結(jié)

以上是生活随笔為你收集整理的电子商务应用课程知识整理第四章-搜索引擎的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：电子商务应用课程知识整理第二章-电子商
下一篇： Oracle数据库体系结构