点击精灵Logo
您的位置:首页 >SEO教程

怎么屏蔽百度蜘蛛抓取网站?

来源:精灵SEO 发布时间:2019-10-09

  百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量。当然我们并不是希望搜索引擎什么都抓取。


  所以,这时我们只希望我们希望在搜索引擎被搜索到的内容进行抓取。像用户隐私、后台信息等都不希望搜索引擎被抓取和收录。怎么屏蔽百度蜘蛛抓取网站?


  解决这样的问题最好的方式有两种,如下:

怎么屏蔽百度蜘蛛抓取网站?

  robots协议文件屏蔽百度蜘蛛抓取


  robots协议是一个放在网站根目录下协议文件,可以通过URL地址:http://你的域名/robots.txt进行访问。当百度蜘蛛抓取我们网站时,会先访问这个文件。因为里面告诉了蜘蛛哪些可以抓取,哪些不可以抓取。


  robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。


  User-Agent:对不同搜索引擎的声明;


  Disallow:不允许抓取的目录或页面;


  Allow:允许抓取的目录或页面,一般可以省略不写,因为你不写什么是不可以抓的那就都是可以抓的;


  下面我们来看一个示例,场景是我不希望百度抓取我网站所有的css文件,data目录、seo-tag.html页面


  User-Agent:Baidusppider


  Disallow:/*.css


  Disallow:/data/


  Disallow:/seo/seo-tag.html


  如上,user-agent声明的蜘蛛名称,这个意思也就是说,针对百度蜘蛛。下面不能抓取”/*.css”,首先前面的/指的是根目录,也就是你的域名。*是通配符,代表任意内容。其意思就是所有文件,以.css结尾的都不能抓取。下面两个你自己体会吧。逻辑是一样的。


  如果你想检测自己最后设置的robots文件对不对,可以访问这篇文章《检查robots是否正确的工具介绍》,有详细的工具能够检测你的设置。


  通过403状态码,限制内容输出,屏蔽蜘蛛抓取。


  403状态码,是http协议中一个网页返回状态码。当搜索引擎碰到403状态码时,就知道这类页面是又权限限制的。我是不能访问的。例如需要登录才能查看的内容,搜索引擎本身是不会登录的,那么你返回403的同时,他也知道了这都是权限设置页面,无法读取内容。自然也就不会收录。


  返回403状态码的同时,应该有一个类似404页面的页面。提示用户或者蜘蛛这类页面想要做什么才能访问。两者缺一不可。你只有提示页面,状态码返回200,那对于百度蜘蛛就是大量的重复页面了。有403状态码但返回不同的内容。这也不是很友好。


  最后针对robot协议,还想再补充一点:“现在搜索引擎会通过你网页的排版、布局来识别你网页的体验友好度,如果屏蔽了css文件、布局相关的js文件的抓取,那么搜索引擎就不知道你的网页布局是好是坏了。所以不建议屏蔽这些内容不让蜘蛛抓取”。


  以上就是“怎么屏蔽百度蜘蛛抓取网站?”的全部内容,希望能够对你有所帮助。当然如上的两个设置除了针对百度蜘蛛外,对所有的蜘蛛都有效果的,设置时请谨慎。

相关文章内容简介

1 谷歌被告赔偿50亿美元 因涉嫌搜索引擎泄露用户隐私

  据路透社报道,谷歌涉嫌利用浏览器“无痕模式”大规模泄露用户隐私,被控起诉最少赔偿50亿美元。   这是本周二发起的一项集体诉讼,谷歌被指控其互联网搜索功能利用设置为“无痕”模式的浏览器,来对用户浏览内容进行监控,从而非法侵犯了数百万用户的隐私,诉讼要求其最少赔偿50亿美元。   根据加利福尼亚州圣何塞联邦法院提起的投诉,无论用户是否点击了Google支持的广告,Google都会通过Google Analytics(分析),Google Ad Manager和其他应用程序以及网站插件(包括部分手机应用)收集数据。   投诉称,涉及人群可能包括“数百万”自2016年6月1日以来以“无痕”模式浏览互联网的Google用户。对于这种违反美国联邦窃听法和加利福尼亚州隐私法的行为,起被要求向每位用户至少赔偿5000美元的赔偿金。   对此,谷歌发言人Jose Castaneda坚决否认了这一说法:“我们已经清楚地表明,每次当你打开一个新的隐身标签时,网站可能会收集你的浏览行为信息。”   谷 [阅读全文]

2 索引量多少算正常?

  百度索引量关乎着关键词排名的概率的高与低,想方设法掌握怎么提高索引量是网站seo优化工作的重中之重。   无论是站长还是专业的seo人,都比较看重网站的收录量。实际上,相对于百度收录量,更应该看重百度索引量,提高索引量才会提高关键词曝光与点击的概率。   类似于一个漏斗过滤水的过程,收录就是经过简单滤的污水,将这些水注入漏斗中,经过层层筛选,就会出来杂质含量不同的水,这些杂质不同的水就是索引量。   索引量的介绍:   1、站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量,一般情况,百度索引量与site查询的收录数,都会同步增长,这说明网站的权重在逐渐增加;   2、站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。一般情况,百度索引量比site指令查询的收录数大,这主要是因为:百度的索引量是百度抓取网站的页面后收录的数量;site指令查询到的页面只是放出去的页面,也就是用户可以搜索到 [阅读全文]

系统提示

登录密码错误!!!