“百度蜘蛛”全面解析之封禁篇,如何禁止百度蜘蛛抓取

  1、Q:网站的部分资源不希望被百度蜘蛛访问,该怎么做?

  A:百度蜘蛛遵守互联网robots协议。站长可以更新robots.txt文件,文件中明确不希望百度蜘蛛访问资源或目录等,并及时通过搜索资源平台-【Robots】工具,提交robots文件。

  需要注意,robots文件更新和提交后,搜索引擎需要逐渐完成更新,所以百度蜘蛛不是立即停止抓取网页,请耐心等待。

  2、Q:网站封禁百度蜘蛛,可能会带来哪些影响?

  A:网站资源优质,也没有其他违规问题,但是存在以下情况

  ①没有查询到百度蜘蛛任何抓取记录,

  ②在百度搜索中没有得到收录和展现,

  ③网站/目录存在流量异常下降的情况,

  ④在搜索结果中的摘要展现为“存在robots封禁”字样。

  若发现以上情况,可以先自查是否存在封禁百度蜘蛛的问题,及时解除封禁(解除封禁参考QA7),等待恢复。

  3、Q:如何解除封禁百度蜘蛛?

  A:常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP这三种,可以逐一排查解决:

  (1) 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。)

  (2)robots文件无异常,进一步排查是否存在封禁百度UA情况;

  方案一:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

  注:正常返回码是200,其他情况为异常。

  方案二:变更浏览器UA验证;

  (3)以上验证均无异常,最后进一步排查是否存在IP级别的封禁;

  常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.mianfeiseo.net/article-90.html