php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...
原文鏈接:百度搜索引擎工作原理,做Seo的建議看一看 - 蜘蛛池博客
從事SEO(搜索引擎優化)工作的人可以比喻成搜索引擎的貼身管家,作為一名合格稱職的管家必須要了解所服務對象的習性,愛好,健康程度等。蜘蛛池博客小編整理發布。
SEO服務的對象是搜索引擎,必須對它的運行規律、工作原理、習性、優缺點等都銘記在心,多多實踐操作,平時實踐的越多,經驗也就越豐富。
搜索引擎是由人創造出來的,所以也是有理可尋的。搜索引擎工作過程有主要的三段工作流程,爬行、預處理及服務輸出。
一、爬行抓取:
抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在服務器原始日志中留下記錄。
爬行抓取是搜索引擎工作中重要的一步,把所有需要抓取的地方抓取回來處理分析,因此如果在抓取這部分出錯,后面就完全癱瘓了。
搜索引擎是事先已經處理好了所抓取的網頁。搜集工作也是要按照一定的規律來進行,基本上有以下兩種特征:
1、批量收集:對互聯網上只要是存在鏈接的網頁都收集一遍,耗時在幾周左右。缺點在于增加了額外的帶寬消耗,時效性也不高。
2、增量收集:是批量收集的一個技術升級,完美的彌補了批量收集的缺點。在原有的基礎上搜集新增加的網頁,變更上次收集之后有改變的頁面,刪除收集重復和不存在的網頁。
二、預處理:
搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。也不可能直接在用戶輸入關鍵詞后返回排名結果。因此抓取來的頁面必須經過預處理,為最后的查詢排名做好準備。
1、提取文字
搜索引擎抓取到頁面HTML代碼時,首先會做的是從HTML文件中去除標簽、程序,提取出可以用于排名處理的頁面文字內容。
2、中文分詞
分詞是中文搜索引擎特有的步驟。英文句子單詞與單詞之間有空格作為間隔,搜索引擎可以直接把句子劃分為單詞的集合,中文則不能。搜索引擎需辨認哪些字會組成一個詞語,哪些字本身就是一個詞。比如“空氣開關”將被分為“開關”和“空氣”兩個詞。
中文分詞方法基本上有兩種:基于詞典匹配和基于統計。
基于詞典匹配方法是指將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。如果按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優先級的不同,又可以分為最大匹配和最小匹配。將掃描方向和長度優先混合,又可以產生正向最大匹配、逆向最大匹配等不同方法。詞典匹配方法計算簡單,其準確度在很大程度上取決于詞典的完整性和更新情況。
基于統計的分詞方法是指分析大量文本字樣,計算出字與字相鄰出現的統計頻率,幾個字相鄰出現越多,就越可能形成一個單詞。基于統計的方法的優勢是對新出現的詞反應更快速,也有利于消除歧義。
基于詞典匹配和基于統計的分詞方法各有優劣,實際使用中的分詞系統都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。
3、去停止詞
無論是英文和中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“的”、“地”之類的助詞,“啊”、“哈”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞。這類詞被稱為停止詞。搜索引擎會在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。
4、消除噪聲
絕大部分的頁面上還有一部分內容對頁面主題沒有任何貢獻,比如版權聲明、導航條、廣告等。這些區塊都屬于噪聲,對頁面主題只能起到分散的作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭,導航,正文,頁腳,廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主題內容。
5、去重
同一篇文章會被不同的網站使用,搜索引擎不喜歡這種重復性內容。試想一下,如果用戶在前兩頁看到的都是不同網站的同一篇文章,那勢必會造成用戶體驗差的表現。搜索引擎只希望返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程叫去重。
去重的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取最有代表性的一部分關鍵詞(經常是出現頻率最高的關鍵詞),然后計算這些關鍵詞的數字指紋。這里的關鍵詞選取是在分詞,去停止詞,消噪之后。通常識選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。
6、正向索引
正向索引也可以簡稱為索引。經過前面五個步驟,搜索引擎得到的就是獨特的,能反應頁面主體內容的、以詞為單位的字符串。接下來搜索引擎就可以提取關鍵詞,按照分詞程序劃分好的詞,把頁面轉化為一個關鍵詞組成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式(如出現子啊標題標簽、黑體、H標簽、錨文字等)、位置等信息。這樣,每個頁面都可以記錄為一串關鍵詞集合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案。
7、倒向索引
正向索引還不能直接用于排名。假設用戶搜索關鍵詞2(見上圖),如果只存在正向索引,排名程序需要掃描所有索引庫文件,找出包含關鍵詞2的文件,再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求。
8、鏈接關系計算
搜索引擎在抓取頁面內容后,必須事先計算出:頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文字,這些復雜的鏈接指向關系形成了網站和頁面的鏈接權重。Google PR值就是這種鏈接關系的最主要體現之一。其他搜索引擎也都進行類似計算,雖然它們并不稱之為PR值。
9、特殊文件處理
除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經常會看到這些文件類型。但目前的搜索引擎還不能處理圖片和視頻,對Flash這類非文字內容,以及腳本和程序只能進行有限的處理。
10、質量判斷
在預處理階段,搜索引擎會對頁面內容質量、鏈接質量等作出判斷。近幾年的百度和Google等推出的算法都是預先計算,然后上線,而不是實時計算的。這里所說的質量判斷包含很多因素,并不局限于針對關鍵詞的提取和計算,或者針對鏈接進行數值計算。比如對頁面內容的判斷,很可能包括了用戶體驗、頁面排版、廣告布局、語法、頁面打開速度等,也可能會涉及到模式識別、機器學習,人工智能等方法。
三、服務輸出:
1、輸出結果
搜索引擎最終會跟用戶的搜索輸出結果,這里就是我們看到的百度快照了,在前面搜索引擎綜合評估的機制原理中,我們可以看到搜索引擎已經做了初步處理,然后再根據用戶的實際搜索詞來進行具體的調整,然后輸出結果。
2、智能完善
搜索引擎還有另外的工作,那就是本身不斷的學習和完善,通過這種智能學習,不斷完善規則,給搜索用戶展現更加符合期望的搜索結果。
總結
以上是生活随笔為你收集整理的php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 桂花蜂蜜的功效与作用、禁忌和食用方法
- 下一篇: typescript用什么软件写_为什么