首页>技术知识>SEO学习 robots协议文件如何规范书写?新手SEO网站优化编写robots协议常见错误方式
SEO学习网站
2021-10-31
robots.txt协议文件看似非常简单的一个文件,但是其格式规范要求相当严格,一旦写错就会失效,打个比方,一把配错的钥匙,已经不能正确打开指定的房间号了,相当于一个废品,所以对于所有
robots.txt协议文件看似非常简单的一个文件,但是其格式规范要求相当严格,一旦写错就会失效,打个比方,一把配错的钥匙,已经不能正确打开指定的房间号了,相当于一个废品,所以对于所有的搜索引擎而言,这个robots协议文件已经不起作用了,因此对于新手而言,如何正确规范的编写robots协议很重要。
 
在此之前,我们已经给大家讲解了robots协议语法,这个是非常重要的一部分内容,大家一定要记住,当然如果不记得了,可以查看文档,下面我们将给大家讲解详细的robots编写规范。


 robots协议

1 robots核心规范实例

 
一般来讲,robots它有一套标准的语句构成,大家只要遵循这项规范写法,一般不会错,注意大小写,这是非常容易出错的。
 
首先我们在开头的第一句就是我们的用户代理:
 
User-agent:
 
注意User的首字母要大写,否则无效。
 
第二个语法段就开始写我们的文件权限。
Disallow:
Allow:
 
注意开头用大写字母。
 
合起来就是像下面这样:
 
User-agent:你希望的搜索引擎程序名称
Disallow: 文件
Allow:文件
 
 

2 常见robots.txt协议编写方式

 

1)Allow允许文件类型

 
假如以百度为例,允许百度抓取则可以像以下例子编写。
 
User-agent: Baiduspider
Allow: /
 
注意字段用冒号并且空格之后写文件目录。
 
比如我们允许搜索引擎对某目录下所有文件进行抓取,可以这么写:
 
Allow: /SEOyh/*
 
比如你的网站有动态网址,我们可以这样设置:
 
Allow: /*?*
 
这样基本可以全部抓取你网站的动态网址,因为有些网站就是以动态网址为主。
 

2)Disallow不允许字段

 
这个用的比较多,通常写法也比较多,一下将会列举常见的写法,让大家更深入的了解这其中的原理。
 
限制某个目录,我们可以这样写
 
Disallow: /baidu/
 
限制某个文件,我们可以这样写:
 
Disallow: /baidu.php
 
限制某个目录下所有文件,我们可以这样写:
 
Disallow: / baidu /*
 
禁止抓取图片,我们可以这样写:
 
Disallow: / baidu /*.jpg
 
禁止抓取特定图片类型,我们可以这样写
 
Disallow: / baidu /*.gif或者Disallow: / baidu /*.gif$
 
依次类推,我们对所有的文件和目录都可以这么写。
 

3)sitemap字段

 
这个比较特殊,所以拿出单独讲,这个主要针对sitemap文件的抓取,给予优先权。编写格式如下:
Sitemap: http://www.seojingxue.com/sitemap.XML
 
或者
 
Sitemap: http://www.seojingxue.com/sitemap.txt
 
 

3 robots搜索引擎程序限制问题

 
如果你不想某些搜索引擎蜘蛛来抓取你的网站,你可以这样编写:
 
User-agent: Googlebot(谷歌)
Disallow: /
 
User-agent: Baiduspider (百度)
Disallow: /
 
User-agent: baiduspider (百度)
Disallow: /
 
注意,蜘蛛程序命名方式也是区分大小写的,如果不太确定,可以写两个,以防万一。
 
 

4  常见robots错误编写方式

 
1)字段大小写不分。很多新手在编写该协议的时候,往往是不记得是大写还是小写,所以如果不记得了,应该马上查资料。
 
2)单词拼写错误。别看几个单词,很多新手不写上几遍是记不住的,特别是对英文不敏感的伙伴,这个需要加强记忆。
 
3)目录文件大小写不分。这个很重要,相当于你的网址一样,也是区分大小写的,除非你在输出的时候进行转换,才有可能避免出现死链。举个简单的例子,/dog目录下,这个是非常有意思的一个例子。
 
/dog:匹配以 /dog 开头的任何路径。
/dog*:等同于 /dog。结尾的通配符会被忽略。
事实上这个也可以看做目录,也可以看做一个文档,它可以匹配如下文档:
 
 
    /dog
    /dog.html
    /dog/dog.html
    /dogheads
    /dogheads/yummy.html
/dog.php?id=anything
 
 
但是不能匹配如下操作:
 
    /Dog.asp
    /reddog
    /?id=dog
    /green/zili
 
 
另外,/dog/也有必要将一下:
 
这个/dog/的意思是匹配 /fish/ 文件夹中的任何内容。
 
该目录可以匹配如下:
 
    /dog/
    /animals/dog/
    /fish/?id=anything
    /fish/salmon.htm
 
 
不能匹配如下目录文档:
 
 
    / dog
    / dog.html
    / Dog /Salmon.asp
 
 
基本上robot的编写方式就如上所言,大家只需根据自己的网站进行编写即可,一些容易错的地方一定要注意。
 
显示全部内容...