馬海祥博客是一個專注于分享SEO優化、網站制作、網絡營銷和運營思維的自媒體博客!
馬海祥博客 > SEO優化 > SEO研究院 > 抓取網站的搜索引擎蜘蛛是不是越多越好

抓取網站的搜索引擎蜘蛛是不是越多越好

時間:2014-08-06   文章來源:馬海祥博客   訪問次數:

做過SEO或站長的都應該知道,網站要想做排名就必須使網站文章先收錄,而網站內容收錄由跟搜索引擎蜘蛛的來訪抓取有很大的關系。

搜索引擎蜘蛛,又被稱為網頁爬蟲,網絡機器人,在FOAF社區中間,也經常被稱為網頁追逐者,是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外它還有一些不常使用的名字,如:螞蟻,自動索引,模擬程序或者蠕蟲。那么,對于一個網站來說,是不是來網站爬行的搜索引擎蜘蛛越多越好呢?

一、搜索引擎蜘蛛抓取網頁的原理

關于搜索引擎獲得網頁的工具,是一款爬行程序(俗稱蜘蛛),蜘蛛程序每天都會爬行大量的網頁,并將一些新的網頁信息帶到服務器以便進行網頁索引的建立。

抓取網站的搜索引擎蜘蛛是不是越多越好-馬海祥博客

可以說,互聯網就是由一個個鏈接構成的,蜘蛛程序順著這些鏈接爬行并發現網頁信息,蜘蛛程序爬行每一個頁面,當這個頁面不再有新的鏈接信息的時候,它就返回,下次再到這個頁面的時候,再去爬行(具體可查看馬海祥博客的《搜索引擎工作的基礎流程與原理》相關介紹)。

當給它足夠的時間,他就會找到互聯網所有的網頁信息(至少是被鏈接的),在爬行的時候,它還會不斷的向服務器提供信息,所以我們在進行網站日志分析的時候,如果發現某一個網頁被某個搜索引擎的蜘蛛程序程序爬行并成功抓取數據,那么,這個網頁就很有可能被索引。

所以,從SEO的角度來說,提高網頁的索引數據(收錄量)對于一個網站的搜索引擎優化(SEO)是非常有利的。

當蜘蛛程序在爬行鏈接的過程中,它還會對爬行過的鏈接進行處理,因為鏈接需要載體(文字、圖片或其他信息),發現鏈接載體并存儲鏈接數據。

所以這里我們要做的,就是努力增加蜘蛛爬行頁面的頻率(在以往的網站分析中經常提到),以保證我們網頁在搜索引擎數據庫中的索引是最新的。

比如蜘蛛程序今天訪問了網站的兩個網頁并成功抓取,隔了兩個星期,它再來訪問這兩個頁面的時候,這兩個網頁其中一個更新了,另一個確沒有,那么,蜘蛛程序可能會在一個星期內再次回訪更新過的那個網頁,而在一個月后才去訪問沒有更新的那個網頁,隨著時間的推移,蜘蛛程序會更加頻繁是爬行經常更新的網頁,以達到更新服務器中的索引數據,向用戶提供最新的網頁信息。

二、搜索引擎蜘蛛是不是越多越好?

不論哪個搜索引擎的爬蟲,來抓取你網站的頁面的時候,肯定在消耗你的網站資源,例如網站的連接數、網絡帶寬資源(空間流量)、服務器的負載、甚至還有盜鏈等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬蟲來抓取你的頁面數據后,它也不一定收用數據,只代表它“到此一游”留下痕跡而已,據馬海祥了解有些搜索引擎只是過來找下它想要的資源,甚至還有很多是開發人員的蜘蛛測試。

對于一個原創內容豐富,URL結構合理易于爬取的網站來說,簡直就是各種爬蟲的盤中大餐,很多網站的訪問流量構成當中,爬蟲帶來的流量要遠遠超過真實用戶訪問流量,甚至爬蟲流量要高出真實流量一個數量級。

對于那些想提高網站有效利用率的網站,雖然設置了相當嚴格的反爬蟲策略,但是網站處理的動態請求數量仍然是真實用戶訪問流量的2倍。

可以肯定的說,當今互聯網的網絡流量有很大一部分的流量是爬蟲帶來的,因此反搜索引擎爬蟲是一個值得SEO長期探索和解決的問題。

所以,從SEO的角度來說,搜索引擎蜘蛛來網站訪問并非越多越好,并且還要合理的屏蔽無效的搜索引擎蜘蛛的抓取。

三、過多的搜索引擎爬蟲對網站的影響

既然對于網站來說,搜索引擎蜘蛛并非是越多越好,那么,這具體是因為什么原因導致的呢?

1、浪費帶寬資源

如果你的網站帶寬資源有限,而爬蟲的量過多,導致正常用戶訪問緩慢,原本虛擬主機主機的連接數受限,帶寬資源也是有限,這種情況搜索引擎爬蟲受影響呈現更明顯。

2、過于頻繁的抓取會導致服務器報錯

如果搜索引擎爬蟲過于頻繁,會抓取掃描很多無效頁面,甚至抓頁面抓到服務器報502、500 、504等服務器內部錯誤了(具體可查看馬海祥博客的《解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼》相關介紹),蜘蛛爬蟲還在不停使勁抓取。

3、與網站主題不相關的搜索引擎爬蟲消耗資源

比如一淘網的抓取工具是一淘網蜘蛛(EtaoSpider),目前是被各大電子商務購物網站屏蔽的,拒絕一淘網抓取其商品信息及用戶產生的點評內容。

被禁止的原因首先應該是它們之間沒有合作互利的關系,還有就是EtaoSpider爬蟲是一個抓取最瘋狂的蜘蛛,據馬海祥對一些電商網站的測試發現:一淘網蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛(Baiduspider)”“360蜘蛛(360Spider)”“SOSO蜘蛛(Sosospider)”等主流蜘蛛爬蟲多幾倍,并且是遠遠的多。

重點是EtaoSpider被抓取只會消耗你的網站資源,它不會給你帶來訪問量,或者其它對你有利用的。

4、無效的測試抓取

一些搜索引擎開發程序員,它們寫的爬蟲程序在測試爬行。

5、robots.txt文件也并非是萬能

肯定有很多人認為,在robots.txt設置屏蔽搜索引擎爬蟲即可,或者允許某些特定的搜索引擎爬蟲,能達到你預想效果。

正規搜索引擎會遵守規則,不過不會及時生效,但是據我對馬海祥博客的測試發現:實際上某些蜘蛛往往不是這樣的,先掃描抓取你的頁面,無視你的robots.txt,也可能它抓取后不一定留用,或者它只是統計信息,收集互聯網行業趨勢分析統計。

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集軟件,采集程序,網絡掃描e-mail地址的工具,各式各樣的SEO分析統計工具,千奇百怪的網站漏洞掃描工具等等,這些抓取對網站沒有任何好處!

四、如何解決無效搜索引擎蜘蛛取的問題

各種搜索引擎的蜘蛛爬蟲會不斷地訪問抓取我們站點的內容,也會消耗站點的一定流量,有時候就需要屏蔽某些蜘蛛訪問我們的站點。那么接下來,馬海祥就根據自己的經驗跟大家分享4種解決無效搜索引擎蜘蛛抓取的方法:

1、只運行常用的搜索引擎蜘蛛抓取

依據空間流量實際情況,就保留幾個常用的,屏蔽掉其它蜘蛛以節省流量。

2、通過服務器防火墻來屏蔽ip

從服務器防火墻iptable直接屏蔽蜘蛛IP段、詳細的IP,這是最直接、有效的屏蔽方法。

3、WWW服務器層面做限制

例如Nginx,Squid,Lighttpd,直接通過“http_user_agent”屏蔽搜索引擎爬蟲。

4、最后robots.txt文件做限制

搜索引擎國際規則還是要遵循規則的。

五、各大搜索引擎蜘蛛的名稱

抓取網站的搜索引擎蜘蛛是不是越多越好-馬海祥博客

為了使大家找到適合自己網站的搜索引擎蜘蛛,馬海祥也特意整理了一份最新的各大搜索引擎蜘蛛名稱(大家要注意下寫法的不同點,特別是大小寫):

1、百度蜘蛛:Baiduspider

網上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider,我通過對馬海祥博客日志的檢查還發現了Baiduspider-image這個百度旗下蜘蛛,是抓取圖片的蜘蛛。

常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。

2、谷歌蜘蛛:Googlebot

這個爭議較少,但也有說是GoogleBot的,谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”,不過,我還在馬海祥博客的日志中發現了Googlebot-Mobile,看名字是抓取wap內容的。

3、360蜘蛛:360Spider

它是一個很“勤奮抓爬”的蜘蛛。

4、SOSO蜘蛛:Sosospider

5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

6、有道蜘蛛:YoudaoBot,YodaoBot

7、搜狗蜘蛛:Sogou News Spider

另外,馬海祥還發現搜狗蜘蛛還包括以下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。

8、MSN蜘蛛:msnbot,msnbot-media

9、必應蜘蛛:bingbot,線上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜搜蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘網蜘蛛:EtaoSpider

根據上述蜘蛛中選擇幾個常用的允許抓取,其余的都可以通過robots屏蔽抓取,如果你的空間流量還足夠使用的話,那就不用做屏蔽了,等流量緊張了就保留幾個常用的屏蔽掉其它蜘蛛以節省流量。

至于那些蜘蛛抓取對網站能帶來有利用的價值,網站的管理者應該是最清楚的。

另外,馬海祥還發現了YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據說這些蜘蛛國外的,對中文網站用處很小。

其實對于我們站長來說,有效并且常用的搜索引擎就那么幾個,只要在robots.txt文件里把常用的幾個搜索引擎蜘蛛允許放行就好了,其它的爬蟲統統通過通配符(*)禁止掉,或單獨屏蔽某些蜘蛛(具體方式我也在馬海祥博客的《robots協議文件的寫法及語法屬性解釋》一文中跟大家做過詳細的介紹,有興趣的朋友可以看下)。

馬海祥博客點評:

對于搜索引擎來說,使用搜索引擎蜘蛛不斷的收集最新數據,主要用于提供它訪問過頁面的一個副本,然后,搜索引擎就可以對得到的頁面進行索引,以提供快速的訪問。蜘蛛也可以在web上用來自動執行一些任務,例如檢查鏈接,確認html代碼;也可以用來抓取網頁上某種特定類型信息,例如抓取電子郵件地址(通常用于垃圾郵件)。

本文發布于馬海祥博客文章,如想轉載,請注明原文網址摘自于http://www.xkwvgc.live/seoyjy/727.html,注明出處;否則,禁止轉載;謝謝配合!

相關標簽搜索: 搜索引擎   搜索引擎蜘蛛  

上一篇:詳解Google Analytics計算流量及統計流量的原理
下一篇:如何通過IIS日志分析網站的隱形信息

您可能還會對以下這些文章感興趣!

  • 超鏈接超文本文檔檢索系統原理和分析方法

    超文本是用超鏈接的方法,將各種不同空間的文字信息組織在一起的網狀文本。超文本更是一種用戶界面范式,用以顯示文本及與文本之間相關的內容。一個與根據超鏈指向的查詢索引文檔相關,用于檢索文檔的搜索引擎,它的索引器遍歷超文本數據庫并尋找包括超鏈指向的文檔地址……【查看全文

    閱讀:745關鍵詞: 超鏈接   超文本   檢索原理   日期:2017-02-07
  • 史上最全的網站SEO策略方案

    在搜索引擎優化中,一個網站的SEO策略能最終影響到網站未來的優化效果。SEO策略不管對中小網站還是大型網站都是重要的,尤其是對于大型網站,制定一個好的SEO策略就顯得尤為重要了。一般的企業網站優化需要考慮的就是排名、長尾、轉化率。可是對于大型門戶站的seo優化則……【查看全文

    閱讀:11545關鍵詞: 網站SEO   SEO策略   SEO方案   SEO   網站SEO策略   SEO策略方案   日期:2013-12-17
  • 網站內鏈是什么?

    內鏈考驗的是網站細節,一個鏈接、一段代碼在SEO優化中可能起不到任何效果,但到100個,200個精準內鏈的時候,情況就大不同了,你可以通過修改網站的細節,避免網站造成潛在的權重損失。做過SEO的朋友都應該聽過這樣一句話:“大站做內鏈,小站做外鏈”,我們可以理解為……【查看全文

    閱讀:2170關鍵詞: 網站內鏈   內鏈是什么   什么是內鏈   內鏈   日期:2014-07-07
  • 什么是長尾關鍵詞?

    網站上非目標關鍵詞但也可以帶來搜索流量的關鍵詞,稱為長尾關鍵詞。長尾關鍵詞的特征是比較長,往往是2-3個詞組成,甚至是短語,存在于內容頁面,除了內容頁的標題,還存在于內容中。搜索量非常少,并且不穩定。長尾關鍵詞帶來的客戶,轉化為網站產品客戶的概率比目標……【查看全文

    閱讀:8048關鍵詞: 長尾關鍵詞   關鍵詞   長尾關鍵詞是   關鍵詞是什么   日期:2013-10-12
  • 影響谷歌搜索排名算法的5大趨勢

    從2010年開始谷歌的算法調整就非常的頻繁,熊貓、企鵝、蜂鳥算法等都是典型的例子,而這些算法都主要是打擊那些低質量鏈接和內容的網站,打擊黑帽SEO對互聯網帶來的不良影響。而那些給用戶提供高質量內容的網站將會獲得更好的排名,得到更多的訪客。這就意味著你的網站需要給……【查看全文

    閱讀:526關鍵詞: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 如何通過IIS日志分析網站的隱形信息

    通過IIS日記的記錄我們可以更加清楚的分析出搜索引擎蜘蛛在網站上的爬行信息,這些信息包含有蜘蛛的爬行路線以及爬行深度。通過這一些數據信息,我們可以分析近期我們建設的外鏈效果如何?因為我們知道外鏈就像是引導蜘蛛爬行的蜘蛛絲,如果外鏈建設的好的話,蜘蛛爬行……【查看全文

    閱讀:1822關鍵詞: iss日志   iss分析   網站分析   iss   網站信息   日期:2014-08-09
  • 詳解搜索引擎的高級搜索語法指令

    作為一名SEOer,我們不但要學SEO的技巧,還要懂得使用一些搜引擎的搜索指令,這些搜索指令普通的用戶幾乎用不到,但對SEO用來研究競爭對手和查找外部的資源卻是非常的有用。一名專業的SEO人員除了在搜索引擎搜索普通的關鍵詞外,還需要使用一些特殊的高級搜索指令來查詢……【查看全文

    閱讀:3161關鍵詞: 搜索引擎   高級搜索   搜索語法   搜索指令   日期:2014-11-07
  • 網站運營的八大SEO策略

    一個大型網站的SEO成功,絕不僅僅是依靠單一SEO技術的成功,最重要的還是靠SEO思維策略,并且把這些SEO思維策略融入到網站運營中,才能使其SEO達到最佳的效果!總的來說,SEO策略就通過實踐、總結、思考和創新來創造或者組合各種資源來達放大突破SEO效果,區別于SEO技術……【查看全文

    閱讀:1666關鍵詞: 網站運營   SEO策略   網站SEO策略   網站SEO   日期:2013-12-27
  • 最常用最典型的SEO作弊手段

    作為一名資深SEO工作者,我一直反對SEO作弊行為,始終提倡白帽SEO,因為急功近利采取一些極端的手段,是不可取是要付出巨大代價的,有太多的網站就因為采用了SEO作弊手段而遭到懲罰,最終對SEO這個行業失去的興起,一個新站想要迅速獲得排名,除了積極原創內容,積極提升高質……【查看全文

    閱讀:3507關鍵詞: seo   seo手段   日期:2015-11-01
  • 影響搜索引擎算法和SEO優化的139個相關因素

    眾所周知,網站優化是隨著搜索引擎算法的升級不斷的探索和尋求效果的優化推廣方式,對于網站的SEO優化,也是SEO技術不斷提升的一個過程,隨著搜索引擎的算法在不斷的完善,網站的競爭應該會趨向于網站的內容,網站的內容越好,那么跳出率就不會高,排名也會比較的靠前,……【查看全文

    閱讀:907關鍵詞: 搜索引擎   搜索引擎算法   seo優化   seo因素   seo   日期:2014-07-31
↓ 點擊查看更多 ↓

互聯網更多>>

  • 移動互聯網是什么意思? 移動互聯網是什么意思? 移動互聯網就是將移動通信和互聯網二者結合起來成為一體,是指互聯網的技術、平臺、商業模式和應用與移動通信……
  • 計算機的開機啟動原理 計算機的開機啟動原理 計算機從打開電源到開始操作,整個啟動可以說是一個非常復雜的過程。總體來說,計算機的整個啟動過程分成四個……
  • 互聯網思維究竟是一種什么樣的思維? 互聯網思維究竟是一種什么樣的思維? 但凡做企業的,不管是創業的還是在互聯網沖擊下轉型升級的傳統行業企業家,“互聯網思維”已經成為了大家共同……

SEO優化 更多>>

醫療行業開展品牌推廣急需解決的10大問題 如何以一個用戶的角度來做企業門戶網站
初一数规律题技巧