各个新手个人博客站长,有没有某些个人博客页面不想被搜索引擎蜘蛛收录反而被搜索引擎蜘蛛收录了,或者后台登陆地址被搜索引擎蜘蛛收录的经历呢?如果有,那么是因为你的个人博客网站是对搜索引擎蜘蛛全部公开的,所以在搜索引擎蜘蛛爬行你的个人博客网站时,才会任意妄为。有没有什么可以禁止搜索引擎蜘蛛收录页面的办法呢?当然有,我们可以使用robots文件来限定搜索引擎蜘蛛在自己的个人博客网站的收录规则。

什么是robots文件?

robots文件应该如何编写 - 梓岳个人博客

robots是一个规定搜索引擎蜘蛛对个人博客网站收录范围的一个约束个人博客网站,许多站长做好个人博客网站后往往忽略了此文件,从而对搜索引擎蜘蛛大开收录之门,使一些涉及个人博客网站安全或者隐私的文件被搜索引擎蜘蛛收录,严重影响了个人博客网站的安全。

robots文件应该怎么写?

1.首先第一行我们需要写 User-agent,写这个的目的是为了限定某些搜索引擎蜘蛛的,一般的网站大部分都会写上 User-agent:*,意思就是规则适用于所有搜索引擎蜘蛛,在这里我们需要了解一个小知识,常见的搜索引擎蜘蛛有:百度 Baiduspider 谷歌 Googlebot,例:如果我们想将个人博客网站收录规则适用于百度蜘蛛,就可以写User-agent: Baiduspider。

2.Disallow,这个主要限制哪些文件或者页面禁止搜索引擎蜘蛛收录,例如我想把个人博客网站后台登陆页面不让搜索引擎收录,我就可以写 Disallow : /admin/ ,意思是不让搜索引擎蜘蛛收录个人博客网站admin根目录下的所有文件!同样如果我们不想让搜索引擎蜘蛛收录 product文件夹内的index.html文件我们就可以写成 Disallow : /product/index.html。

3.有了禁止收录那就应该会有允许收录 Allow,那么为什么要有这个命令呢?是因为如果我想让admin文件夹内的文件都不被搜索引擎蜘蛛搜录,只有index.html这个页面收录在这种情况下就需要用到Allow了。我们可以先写Disallow : /admin/ 然后在写Allow: /admin/index.html这样就可以达到我们的目的了。

4.另外在robots文件中还有一些特殊的字符
(1)$结束符,主要用于一些文件不让搜索引擎蜘蛛收录的时候用到,如Disallow: .php$意思是所有以.php为后缀的文件都不让搜索引擎蜘蛛搜录。
(2)*通配符,主要用于不让搜索引擎蜘蛛搜录所有带有某个字符的文件如,Disallow: *d* 意思是不让搜索引擎蜘蛛收录所有带d的文件。 。

5.实例: (1)不让所有搜索引擎蜘蛛收录个人博客所有页。
User-agent: *
Disallow: /
(2)对所有搜索引擎蜘蛛开放,可以收录网站中任意页面。
User-agent:*
Allow: /

如果各位新手个人博客站长们,还没有设置这个文件,那么就赶快设置吧!

本文来源于 梓岳 转载请注明出处,谢谢!