soola
驱动牛犊
驱动牛犊
  • 注册日期2012-06-15
  • 最后登录2012-07-17
  • 粉丝0
  • 关注0
  • 积分12分
  • 威望51点
  • 贡献值0点
  • 好评度0点
  • 原创分0分
  • 专家分0分
阅读:2194回复:0

服务器页面返回码的意义详解

楼主#
更多 发布于:2012-07-17 23:12
蜘蛛在爬行时,是根据http协议的规则来进行逻辑返回的,如果做优化的不知道所返回的状态码的意义的话就很难知道发生了什么事,以至于分析都无法进行,那么,如何识别这些页面返回码呢,广州网络公司特此收集了一些状态返回码以供参考。蜘蛛对常用的http返回码的处理逻辑是这样的:
1>301
       301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
2>404
       404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
3>503
       503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
4>403
      403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
广州网络公司也就以上的状态以及情况分析给出了一些自主更换时需要做的工作,比如以下的三点:
1>站点迁移,或域名更换时,请使用301返回码。
2>如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
3>如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
      识别这些页面返回码对于我们的分析工作来说是一个非常重要的依据,如果这些细节没有做好的话很难说会怎么样,但是优化这一条路就是要从细节上来达到目的的,这里的一些意见仅供参考,如有如要探讨的,请继续等待更新。
本站原创,转载需要注明出处:
广州网站优化http://www.soola.net/webseo/ggyh_1296_533.html
广州网站优化:www.soola.net
游客

返回顶部