馬海祥博客是一個專注于分享SEO優化、網站制作、網絡營銷和運營思維的自媒體博客!
馬海祥博客 > SEO優化 > SEO研究院 > 解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼

解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼

時間:2013-10-26   文章來源:馬海祥博客   訪問次數:

對于一個合格的SEOer來說,要想分析一個網站的目前狀態,首先要學會的就是如果查詢IIS日志,因為網站的一些搜索引擎蜘蛛爬尋狀況和訪問IP的來源都會記錄在IIS日志中,所以IIS日志對每個SEOer或網站管理者非常的重要,馬海祥覺得要想準確的解讀這些網站日志,我們首先就要先明白IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼分別是什么?又代表著什么意思?

解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼-馬海祥博客

搜索引擎蜘蛛名稱代碼:

百度蜘蛛:BaiduSpider

谷歌蜘蛛:Googlebot
  谷歌專門抓取圖片的蜘蛛:Googlebot-Image
  谷歌廣告聯盟代碼的蜘蛛:Mediapartners-Google

360搜索蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider
  搜狗蜘蛛還包括如下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider(參考一些網站的robots文件,搜狗蜘蛛名稱可以用Sogou概括)

SOSO蜘蛛:Sosospider

雅虎蜘蛛:Yahoo Slurp
  雅虎中國蜘蛛:Yahoo! Slurp China
  雅虎廣告蜘蛛:Yahoo!-AdCrawler

網易有道蜘蛛:YoudaoBot,YodaoBot

MSN蜘蛛:msnbot,msnbot-media

必應蜘蛛:bingbot

Alexa蜘蛛:ia_archiver

即刻蜘蛛:JikeSpider

一搜蜘蛛:YisouSpider

宜搜蜘蛛:EasouSpider

解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼-馬海祥博客

搜索引擎蜘蛛爬尋返回代碼解讀:

1xx (臨時響應)表示臨時響應并需要請求者繼續執行操作的狀態代碼。

100 (繼續) 請求者應當繼續提出請求。服務器返回此代碼表示已收到請求的第一部分,正在等待其余部分。

101 (切換協議) 請求者已要求服務器切換協議,服務器已確認并準備切換。

2xx (成功)表示成功處理了請求的狀態代碼。

200 (成功) 服務器已成功處理了請求。通常,這表示服務器提供了請求的網頁。

201 (已創建) 請求成功并且服務器創建了新的資源。

202 (已接受) 服務器已接受請求,但尚未處理。

203 (非授權信息) 服務器已成功處理了請求,但返回的信息可能來自另一來源。

204 (無內容) 服務器成功處理了請求,但沒有返回任何內容。

205 (重置內容) 服務器成功處理了請求,但沒有返回任何內容。

206 (部分內容) 服務器成功處理了部分GET請求。

3xx (重定向) 表示要完成請求,需要進一步操作。通常,這些狀態代碼用來重定向。

300 (多種選擇) 針對請求,服務器可執行多種操作。服務器可根據請求者 (user agent) 選擇一項操作,或提供操作列表供請求者選擇。

301 (永久移動) 請求的網頁已永久移動到新位置。服務器返回此響應(對 GET 或 HEAD 請求的響應)時,會自動將請求者轉到新位置。

302 (臨時移動) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以后的請求。

303 (查看其他位置) 請求者應當對不同的位置使用單獨的GET請求來檢索響應時,服務器返回此代碼。

304 (未修改) 自從上次請求后,請求的網頁未修改過。服務器返回此響應時,不會返回網頁內容。

305 (使用代理) 請求者只能使用代理訪問請求的網頁。如果服務器返回此響應,還表示請求者應使用代理。

307 (臨時重定向) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以后的請求。

4xx(請求錯誤) 這些狀態代碼表示請求可能出錯,妨礙了服務器的處理。

400 (錯誤請求) 服務器不理解請求的語法。

401 (未授權) 請求要求身份驗證。對于需要登錄的網頁,服務器可能返回此響應。

403 (禁止) 服務器拒絕請求。

404 (未找到)服務器找不到請求的網頁。

405 (方法禁用) 禁用請求中指定的方法。

406 (不接受) 無法使用請求的內容特性響應請求的網頁。

407 (需要代理授權) 此狀態代碼與401(未授權)類似,但指定請求者應當授權使用代理。

408 (請求超時)服務器等候請求時發生超時。

409 (沖突) 服務器在完成請求時發生沖突。服務器必須在響應中包含有關沖突的信息。

410 (已刪除) 如果請求的資源已永久刪除,服務器就會返回此響應。

411 (需要有效長度) 服務器不接受不含有效內容長度標頭字段的請求。

412 (未滿足前提條件) 服務器未滿足請求者在請求中設置的其中一個前提條件。

413 (請求實體過大) 服務器無法處理請求,因為請求實體過大,超出服務器的處理能力。

414 (請求的 URI 過長) 請求的URI(通常為網址)過長,服務器無法處理。

415 (不支持的媒體類型) 請求的格式不受請求頁面的支持。

416 (請求范圍不符合要求) 如果頁面無法提供請求的范圍,則服務器會返回此狀態代碼。

417 (未滿足期望值) 服務器未滿足"期望"請求標頭字段的要求。

5xx(服務器錯誤)這些狀態代碼表示服務器在嘗試處理請求時發生內部錯誤。這些錯誤可能是服務器本身的錯誤,而不是請求出錯。

500 (服務器內部錯誤) 服務器遇到錯誤,無法完成請求。

501 (尚未實施) 服務器不具備完成請求的功能。例如,服務器無法識別請求方法時可能會返回此代碼。

502 (錯誤網關) 服務器作為網關或代理,從上游服務器收到無效響應。

503 (服務不可用) 服務器目前無法使用(由于超載或停機維護)。通常,這只是暫時狀態。

504 (網關超時) 服務器作為網關或代理,但是沒有及時從上游服務器收到請求。

505 (HTTP 版本不受支持) 服務器不支持請求中所用的HTTP協議版本。

馬海祥博客知識擴展:

分析解讀IIS網站日志中的“2013-10-26 00:09:12 W3SVC962713505 61.191.55.28 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64”是什么意思?

解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼-馬海祥博客

1、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期與時間

2、W3SVC962713505代表網站日志所在的文件夾

3、61.191.55.28就是搜索引擎蜘蛛訪問的網站ip(比如:馬海祥博客的ip是61.191.55.28)

4、代碼中的/index.html 就代表搜索引擎蜘蛛防問的網頁

5、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39

6、http://www.baidu.com/search/spider.htm baiduspider常見問題解答網頁

7、代碼中的200就代表搜索引擎蜘蛛爬行后返回HTTP狀態代碼,通過上面的搜索引擎爬尋返回代碼可以了解蜘蛛爬行后的反映。

8、關于蜘蛛在IIS里的200 0 64的狀態行為分析:

根據我對馬海祥博客iis日志一段時間的觀察,雖然暫時還沒有足夠的證據,但是基本上可以肯定在IIS中,如果蜘蛛后面的號碼出現200 0 64,那么網站中的這個單頁面就會在搜索引擎中消失了。馬海祥博客上被K的頁面后面都寫著200 0 64,不知道大家是否認同這個看法,當然,我說這個也并不是絕對的,因為我也有一個頁面后面顯示著200 0 64但是在搜索引擎中依舊可以找到。這也說明著問題,但大多200 0 64行為的網頁就已經沒有了。

我認為,抓取狀態成200 0 64的可能是不正常的抓取,正常的抓取是成功標志200 0 0,當變成了200 0 64的狀態時說明搜索引擎在抓取這個頁面的時候出現了錯誤,沒有正常的進行常規抓取;對于百度來說,百度很可能是已經不再把這些頁面抓進主索引庫,而是放進了“百度沙盒”里進行考察,至于考察多久,就看你如何改進了。

所以馬海祥覺得蜘蛛的200 0 64行為可以被解釋為清除數據。

本文發布于馬海祥博客文章,如想轉載,請注明原文網址摘自于http://www.xkwvgc.live/seoyjy/306.html,注明出處;否則,禁止轉載;謝謝配合!

相關標簽搜索: 搜索引擎   IIS日志   搜索引擎蜘蛛   蜘蛛名稱代碼   爬尋返回代碼  

上一篇:如何利用詞頻統計原理自動提取文章摘要?
下一篇:翻頁式網頁的抓取機制概況

您可能還會對以下這些文章感興趣!

  • 影響谷歌搜索排名算法的5大趨勢

    從2010年開始谷歌的算法調整就非常的頻繁,熊貓、企鵝、蜂鳥算法等都是典型的例子,而這些算法都主要是打擊那些低質量鏈接和內容的網站,打擊黑帽SEO對互聯網帶來的不良影響。而那些給用戶提供高質量內容的網站將會獲得更好的排名,得到更多的訪客。這就意味著你的網站需要給……【查看全文

    閱讀:513關鍵詞: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 什么是長尾關鍵詞?

    網站上非目標關鍵詞但也可以帶來搜索流量的關鍵詞,稱為長尾關鍵詞。長尾關鍵詞的特征是比較長,往往是2-3個詞組成,甚至是短語,存在于內容頁面,除了內容頁的標題,還存在于內容中。搜索量非常少,并且不穩定。長尾關鍵詞帶來的客戶,轉化為網站產品客戶的概率比目標……【查看全文

    閱讀:7840關鍵詞: 長尾關鍵詞   關鍵詞   長尾關鍵詞是   關鍵詞是什么   日期:2013-10-12
  • 影響搜索引擎算法和SEO優化的139個相關因素

    眾所周知,網站優化是隨著搜索引擎算法的升級不斷的探索和尋求效果的優化推廣方式,對于網站的SEO優化,也是SEO技術不斷提升的一個過程,隨著搜索引擎的算法在不斷的完善,網站的競爭應該會趨向于網站的內容,網站的內容越好,那么跳出率就不會高,排名也會比較的靠前,……【查看全文

    閱讀:907關鍵詞: 搜索引擎   搜索引擎算法   seo優化   seo因素   seo   日期:2014-07-31
  • 網站運營的八大SEO策略

    一個大型網站的SEO成功,絕不僅僅是依靠單一SEO技術的成功,最重要的還是靠SEO思維策略,并且把這些SEO思維策略融入到網站運營中,才能使其SEO達到最佳的效果!總的來說,SEO策略就通過實踐、總結、思考和創新來創造或者組合各種資源來達放大突破SEO效果,區別于SEO技術……【查看全文

    閱讀:1657關鍵詞: 網站運營   SEO策略   網站SEO策略   網站SEO   日期:2013-12-27
  • 詳解Google Analytics計算流量及統計流量的原理

    對于一個SEO來說,網站流量來源分析是一個至關重要的工作,因為從網站的流量來源分布情況,可以判定出我們近期工作的成效,也可以制定我們下一部工作的重點規劃,而對于大多數站長和SEOer來說,我們所依據的也都是依靠Google Analytics、百度統計和cnzz提供的流量記錄……【查看全文

    閱讀:3121關鍵詞: 計算流量   統計流量   日期:2014-08-02
  • 301永久重定向的設置方法大全

    301永久重定向是在搜索引擎優化中很常用的一個域名地址跳轉的操作,可以幫助我們轉移域名的權重,但是在做301重定向的時候由于服務器系統、網站程序語言、域名和鏈接地址的不同,使用的方法也不同,這個時候我們就需要根據具體的網站環境來制定不同的301重定向方法。……【查看全文

    閱讀:9302關鍵詞: 301重定向   永久重定向   301設置   重定向方法   日期:2014-10-17
  • 百度索引量下降的原因及解決方法

    作為一名專業的SEO人員,我們很多的時候都在研究站點中有多少頁面可以作為搜索候選結果,也就是一個網站的索引量,所謂網站索引量,就是搜索引擎抓取你網站的數量,這能影響到網站收錄率,是一個非常重要的SEO因素,索引量是流量的基礎,索引量數據的每一個變動都撥動著……【查看全文

    閱讀:5191關鍵詞: 百度索引量   百度   索引量   百度索引   日期:2015-05-21
  • Google圖片搜索辨別技術的原理

    自從做了這個關于seo思維的馬海祥博客以后,最近一直在寫些關于seo經驗的文章跟大家分享,為了使文章更加的生動形象,增加趣味性,我也特意在文章中穿插了一些圖片,于是最近也就經常用百度圖片搜索、google圖片搜索功能,在使用的過程中,也使我對搜索引擎是如何把圖片……【查看全文

    閱讀:1107關鍵詞: Google圖片   圖片搜索   Google圖片搜   日期:2012-09-15
  • 百度人工詞:做SEO必須要知道的特殊關鍵詞

    在做SEO的行業里有這樣一個名詞人工詞,這個詞出現的頻率不高,但是卻很受爭議,因為它本身就代表著一種爭議。人工詞簡單地說也就是禁詞,這種詞所有人都想去做,去優化,因為至少他能給你的網站帶來巨大的流量。但是,你或許會遇到這樣的情況,不論你怎么優化,你的網站排名……【查看全文

    閱讀:1709關鍵詞: 百度人工詞   SEO   特殊關鍵詞   人工詞   關鍵詞   日期:2013-11-21
  • 網站點擊率對關鍵詞排名到底有沒有影響

    網站的總流量對排名并沒有太大的直接影響,但是通過來自搜索引擎某關鍵詞的流量,相比同關鍵詞下的其它網站流量,對網站的該關鍵詞的排名影響較大。其它因素還有:網站用戶停留時間較長,你的網站PV量,跳出率。如果你的網站來自搜索引擎里面的點擊量相比其他來說更多,……【查看全文

    閱讀:4363關鍵詞: 網站點擊率   關鍵詞排名   點擊率   網站排名   關鍵詞   日期:2014-09-12
↓ 點擊查看更多 ↓

互聯網更多>>

SEO優化 更多>>

如何利用極客精神優化網站的網絡組件和代碼 一個完整的企業網站首頁應該具備什么因素?
初一数规律题技巧