认识搜索引擎-从SEO到优化实战大师
2-1 搜索引擎的發展、現狀和趨勢
發展歷程:
第一代:分類目錄時代,1994年4月,斯坦福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo
第二代:文本檢索時代,搜索引擎查詢信息的方法則是通過用戶所輸入的查詢信息提交給服務器,服務器通過查閱,返回給用戶一些相關程度高的信息,如像Alta Vista;
第三代:整合分析時代,和我們今天的網站的外部鏈接形式基本相同,在當時外鏈代表的是一種推薦的含義,通過每個網站的推薦鏈接的數量來判斷一個網站的流行性和重要性。然后搜索引擎再結合網頁內容的重要性來和相似程度來改善用戶搜索的信息質量。這種模式的首先使用者是google,且大獲成功;
起源:現在的谷歌、百度就是搜索引擎的一種,1990年,加拿大麥吉爾大學計算機學院的師生開發出Archie。當時,萬維網還沒出現,人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP服務器上的文件名信息,提供查找在各個FTP主機中的文件。用戶必須輸入精確的文件名進行搜索,Archie告訴用戶哪個FTP服務器能下載該文件。雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務,所以被認為是搜索引擎的鼻祖;
2018年8月,Google全球市場份額為92.12%,高居榜首。百度為第四,市場份額為1.17%;
2018年8月,百度國內市場份額為77.88%,高居榜首。360搜索第二,市場份額為8.18%;
第四代:用戶中心時代,當輸入同一個查詢的請求關鍵詞,在用戶的背后可能是不同的查詢要求。如輸入的是“蘋果”,是想找iPhone還是要找水果?甚至是同一個用戶,所查的關鍵詞一樣,也會因為所在的時間和所在的場合不同而返回的結果不同,所有主流搜索引擎,都在致力于解決同一個問題:怎樣才能從用戶所輸入的一個簡短的關鍵詞來判斷用戶的真正查詢請求。而移動互聯網搜索的必然使命,就是提供精準到個人的搜索;
未來暢想:
未來的搜索引擎應該可以回答任何問題,用戶在使用搜索引擎的時候,不必先想好先搜什么,后搜什么。用戶也不用去學習怎樣去搜,而應該像對好朋友問問題,搜索應該更像在對話,更容易,更自然,而不是有一個固定的搜索方式。
和人工智能(AI)結合, AI 能夠處理復雜的任務,會分析一系列用戶習慣、用戶資料、用戶行為,根據上下文優化個人推薦和建議,比如地點、時間,個人愛好、需要、瓶頸,從而確保搜索結果匹配的相關性迅速提高。比如你要買房子,它會根據你的財政情況、周邊學校要求、娛樂需求、工作喜好等因素把你帶到你最理想的房子面前,這樣就不用你到處看房了。
第五代:生活生態圈搜索時代,即萬物互聯的互聯網+時代,擁有更廣闊的搜索空間,搜索無處不在,比如遠程看管小孩、老人,或搜索走失小孩,包括精確到厘米的GPS定位,比如你去一個陌生的地方,找廁所,找警察,甚至還有可能東西找你,比如飯煮好了,電飯堡呼叫你等等;
百度,全球最大的中文搜索引擎,2000年1月創立于北京中關村。公司名稱來自宋詞“眾里尋他千百度”,而“熊掌”圖標的想法來源于“獵人巡跡熊爪”的刺激,與李彥宏的“分析搜索技術”非常相似,從而構成百度的搜索概念,也最終成為了百度的圖標形象。百度從最初的不到10人,于2001年10月22日正式發布Baidu搜索引擎,到2015年有近5萬員工,現今中國搜索市場的龍頭;
2-2 搜索引擎排名原理和流程
搜索引擎從用戶搜索到最終搜索結果展現的步驟是(以百度為例):
抓取,百度都不知道你的網站,如何讓你有排名呢?所以要讓百度知道你,就要先通過抓取這個步驟;
過濾,過濾掉低質量的頁面內容;
索引,只有合格的頁面才會被存儲;
處理,對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。
排名,將高質量的頁面展現給用戶;
2-2-1 排名原理之Spider
蜘蛛(Spider):
l被搜索引擎派出能在網上發現新網頁并抓取的程序稱為蜘蛛,其從已知的數據庫出發,像正常用戶的瀏覽器一樣訪問這些網頁,并跟蹤網頁中的鏈接,訪問更多的網頁,這個過程就叫爬行; l蜘蛛對一個站點的遍歷抓取策略分深度優先和廣度優先兩種。
根據爬取目標和范圍,可分為
批量性爬蟲:明確的抓取目標和范圍,達到即停止;
增量型爬蟲:應對網頁不斷更新的狀態,爬蟲需要及時反應,通用商業引擎一般都是這類;
垂直型爬蟲:只針對某個特定領域的爬蟲,根據主題過濾;
2-2-2 排名原理之抓取
百度官方 spider抓取過程中的策略
1、抓取友好性,同一個站點在一段時間內的抓取頻率和一段時間內的抓取流量都不同,即錯開正常用戶訪問高峰不斷的調整,避免程度過大影響被抓網站的正常用戶訪問行為。
2、常用抓取返回碼,如503,404,403,301等;
3、多種url重定向的識別,如http 30x、meta refresh重定向和js重定向,Canonical標簽也可看做變相的重定向;
4、抓取優先級調配,如深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、大站優先策略等;
5、重復url的過濾,包括url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面;
6、暗網數據的獲取,搜索引擎暫時無法抓取到的數據,如存在于網絡數據庫中,或由于網絡環境、網站本身不符合規范、孤島等問題而造成的無法被抓取,如百度的“阿拉丁”計劃;
7、抓取反作弊,抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等;
spider感興趣的頁面有3類:
1.從未抓取過的新頁面。
2.抓取過但內容有改動的頁面。
3.抓取過但現在已刪除的頁面。
蜘蛛不能/不喜歡抓取的內容:
1.被robot屏蔽的頁面;
2.圖片、視頻和flash里的內容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服務器端屏蔽;
5.孤島頁面(無任何導入鏈接);
6.登錄后才能獲取的內容;
2-2-3 排名原理之過濾
四種近似重復網頁類型:
l1.完全重復頁面:在內容和布局格式上毫無區別;
l2.內容重復頁面:內容相同,但布局格式不同;
l3.布局重復頁面:有部分重要的內容相同,并且布局格式相同;
l4.部分重復頁面有部分重要內容相同,但布局格式不同;
低質量的內容頁面:
?1.多個URL地址指向同一網頁以及鏡像站點,如帶www和不帶www的同時解析到一個網站;
?2.網頁內容重復或近似重復,如采集內容,文不對題或垃圾信息;
?沒有豐富的內容,如純圖片頁面或頁面內容搜索引擎識別不了;
過濾-重復文檔的處理方式:
ü1.低質量內容予以刪除
ü2.高質量重復文檔分組并優先展示(重復性高表示受歡迎)
2-2-4 排名原理之索引
l1.用戶在查詢時所得到的結果并非及時的,是在搜索引擎的緩存區排列好的,當其處理用戶查詢請求的時候,會將請求按照詞庫進行分詞,將詞庫中的每一個關鍵詞其對應的URL排名先行計算好,并將其保存在索引數據庫中。這就是倒排索引,即用文檔的關鍵詞作為索引,文檔作為索引目標(類似于普通書籍中,索引是關鍵詞,書的頁面是索引目標);
l假若頁面被切詞成p={p1,p2,p3,……,pn},則其在索引數據庫中由右圖方式體現(僅供理解,不代表真實)
l索引更新策略:通過完全重建策略,再合并策略,原地更新策略,混合策略等,來不停的更新索引;
處理:
l1.分析用戶的搜索意圖,看是導航型、信息型還是事物型,好提供精準的搜索結果,假設用戶在搜索時可能想不到合適的搜索詞,或者關鍵詞輸入錯誤,這時候就需要幫助用戶澄清搜索意圖(相關搜索、查詢糾錯)。
l2.提取關鍵詞,代碼去噪只留下文字,去除公共區域等非正文的關鍵詞,去除“的”“在”等停用詞,再通過分詞系統將此文分成一個分詞列表儲存在數據庫中,并與其URL進行一一對應;
l3.內容檢索,通過布爾模型、向量空間模型、概率模型、語言模型、機器學習排序等檢索模型來計算網頁與查詢的相關性;
l4.鏈接分析,通過分析計算獲得的得分來評估網頁的重要性。
補充小知識:
1.重要信息分析,利用網頁代碼(例如H標簽、strong標簽)、關鍵詞密度、內鏈錨文本等方式分析出此網頁中最重要的詞組; ?網頁重要度分析,通過指向該網頁的外鏈錨文本所傳遞的權重值為此網頁確定一個權重數值,結合”重要信息分析”,從而確立此網頁的關鍵詞集合p中每一個關鍵詞所具備的排名系數。
2-2-6 排名原理之查詢/排名
查詢服務:
l1.根據查詢方式與關鍵詞進行切詞。首先先把用戶搜索的關鍵詞切分為一個關鍵詞序列,暫時用q來表示,則用戶搜索的關鍵詞q被切分為q={q1,q2,q3,……,qn}。然后再根據用戶查詢方式,例如是所有詞連在一起,還是中間有空格等,以及根據q中不同關鍵詞的詞性,來確定所需查詢詞中每一個詞在查詢結果的展示上所占有的重要性。
l2.搜索結果排序。我們有了搜索詞集合q,q中每個關鍵詞所對應的URL排序——索引庫,同時也根據用戶的查詢方式與詞性計算出每個關鍵詞在查詢結果的展示上所占有的重要,那么只需要進行一點綜合性的排序算法,搜索結果就出來了。
l3.將上述的搜索結果與文檔摘要展示給用戶即可;
通過常見現象猜想百度算法:
2-3 BaiduSpider3.0
BaiduSpider3.0對于seo的影響:
l1.抓取、建庫更快,所以要縮短優化周期,包括更新、微調、改版等,之前改版要3個月,現在可能1個月就調整好了。
l2.死鏈處理更及時,在優化時要及時發現死鏈(包括錯誤頁面、被黑的頁面、無內容頁面等)并且及時提交到百度站長工具讓其及時刪除,防止因為死鏈降權。
l3.注重高質量的原創內容,并給予保護和排名優先展現權,所以我們應該主動去更新高質量原創內容并主動提交。
l4.鏈接的主動提交,有如下四種方式,可根據自己的情況選擇;
在2016年6月份,百度官方公布Spider從2.0升級到了3.0,此次升級是把當前離線、全量計算為主的系統,改造成實時、增量計算的全實時調度系統,萬億規模的數據進行實時讀寫,可以收錄90%的網頁,速度提升80%! ?這表明搜索更注重時效性,比如主動提交數據平均被抓取時間早于爬蟲發現時間4個小時,被提交的收錄也很快,這樣頁面更新加快,做的好不一定馬上有好的排名,但做的差一旦被發現更新會更及時,畢竟要展現給用戶高質量的內容,所以對于網站一定不能掉以輕心,因為一旦出問題再恢復就很難;
2-4 常用搜索引擎高級指令
l雙引號(英文):搜索詞完全匹配,如搜【 “軟件” 】則結果必須含軟件;
l減號:不包含減號后邊的詞,前帶空格后不帶,如【軟件 -江蘇】;
lInurl:用于搜索查詢詞出現在url中的頁面,如【inurl:dingjianseo】;
Intitle:搜索的頁面title中包含關鍵詞,如【intitle:軟件】;
Allinurl:頁面url中包含多組關鍵詞,如【allinurl:dingjianseo seo】;
Allintitle:頁面標題中包含多組關鍵詞,如【allintitle:你好 江蘇】;
Filetype:搜索特定的文件格式。如【filetype:pdf seo】是包含seo的pdf文件;
Site/Domain:搜索域名的近似收錄和外鏈,如site:dingjianseo.com;
高級搜索指令可以組合使用,如intitle:軟件 inurl:dingjianseo;
內容為“常州姜東”原創文章,本站可能不是首發,原稿地址:https://www.dingjianseo.com/seo/80.html
總結
以上是生活随笔為你收集整理的认识搜索引擎-从SEO到优化实战大师的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: h5移动端播放amr格式的音频文件兼容安
- 下一篇: 2020完美解决:调用豆瓣接口错误