安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法
有的網站明明內容優質原創,用戶可以正常訪問,但偏偏網絡蜘蛛無法正常訪問抓取導致無法被收錄,搜索結果覆蓋率偏低,對搜索引擎和網站都是一種損失,這種情況就是抓取異常。對于大量內容無法正常抓取的網站,搜索引擎會以為網站存在用戶體驗上的缺陷,并降低對其的評價,在抓取、索引、排序上必然受到一定的負面影響,最終影響到網站從搜索引擎獲取的流量。下面,小編總結了一些常見導致搜索引擎蜘蛛抓取異常的原因,供大家參考。
一.服務器連接異常
服務器連接異常一般有兩種:一種是暫時無法連接,另一種是一直無法連接。對于用戶來說,一個連接異常的服務器是他們是不會逗留的,網絡蜘蛛同樣如此,服務器連接異常的網站會被網絡蜘蛛判斷排除,導致抓取異常。造成服務器連接異常的原因通常是網站服務器過大,超負荷運轉,通過檢查瀏覽器是否正常訪問。服務器異常會導致蜘蛛無法連接網站服務器,導致出現抓取失敗。。網站和主機還可能阻止了網絡蜘蛛的訪問,需要檢查網站和主機的防火墻。選擇一款安全穩定,性能好的服務器是網站優化的根本前提。
二.抓取超時
網站頁面的加載速度一直是不可忽視的重點,對用戶和搜索引擎的體驗有著舉足輕重的影響。用戶訪問頁面時如果不能在第一時間打開頁面,那么就會喪失興趣,而跳到其他網站上去。而蜘蛛呢?同樣如此,如果無法第一時間抓取,就會出現抓取超時問題了。 抓取超時,往往是因為帶寬不足,以及頁面太大而導致的。因此設計頁面時應該對網頁上的圖片進行壓縮;減少一些腳本的使用;控制頁面長度和內鏈數量,可以在一定程度上縮減頁面,減少服務器上的負擔,緩解服務器過載的情況。
三. 網絡運營商異常
國內主要的網絡運營商有電信和聯通。如果網絡蜘蛛無法通過電信或聯通的網絡訪問網站,則需要與網絡運營商聯系,購買擁有雙線服務的空間,或者購買CDN服務。
四. DNS異常
當網絡蜘蛛無法解析網站的IP地址,會出現DNS異常,這可能是由網址出現了IP地址錯誤,或者域名服務商將網絡蜘蛛封禁的其中一種情況導致的。可以使用WHOIS或者host查詢網站IP地址是否正確且可解析,如果不正確或無法解析,應與域名注冊商聯系,更新IP地址。
五. 設置錯誤
包括IP封禁和UA封禁。IP禁封是指限制網絡的出口IP地址,禁止該IP段的使用者進行內容訪問。而UA禁封則是針對服務器通過UA(用戶代理)識別身份后的用戶進行指定的跳轉。這兩種封禁都會導致網絡蜘蛛無法正常到訪抓取。應該識別設置是否誤添加了相關搜索引擎網絡蜘蛛的封禁。
六. 死鏈
死鏈就是頁面已經無效,無法對用戶提供任何有價值信息的頁面,包括協議死鏈和內容死鏈兩種形式:一種是協議死鏈:頁面的TCP協議狀態/HTTP協議狀態明確表示的死鏈,常見的如404、403、503狀態等。另一種內容死鏈:服務器返回狀態是正常的,但內容已經變更為不存在、已刪除或需要權限等與原內容無關的信息頁面。目前內容死鏈召回存在召回率的風險,所以建議各位站長盡量使用協議死鏈,以保證平臺工具更好地發揮其作用。死鏈可通過死鏈工具提交給搜索引擎,減速死鏈造成的負面影響。
七.網站被掛馬
網站被掛馬也可能導致抓取異。查詢掛馬文件在哪里并刪除,恢復網站,做好安全防范措施,防止下次被掛馬。
各位站長平時要多多查看自己網站的網絡蜘蛛抓取情況。如果發現偶爾抓取失敗,則屬于正常情況,不會對網站的正常抓取和收錄造成影響。但如果抓取失敗出現持續性的,則要引起注意了,根據網站出現抓取異常的具體原因做上述具體的分析。各位如果對網絡蜘蛛抓取異常還存在其他疑問可以咨詢【中網網絡客】。
之后文章將會持續更新,為大家提供有質量的文章,盡情關注【中網網絡客】
總結
以上是生活随笔為你收集整理的安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javaweb功能模块如何合理设计_产品
- 下一篇: python操作hdfs_python