首页>技术知识>SEO学习 robots协议文件如何规范书写?新手SEO网站优化编写robots协议常见错误方式

SEO学习网站

2021-10-31

robots.txt协议文件看似非常简单的一个文件，但是其格式规范要求相当严格，一旦写错就会失效，打个比方，一把配错的钥匙，已经不能正确打开指定的房间号了，相当于一个废品，所以对于所有

robots.txt协议文件看似非常简单的一个文件，但是其格式规范要求相当严格，一旦写错就会失效，打个比方，一把配错的钥匙，已经不能正确打开指定的房间号了，相当于一个废品，所以对于所有的搜索引擎而言，这个robots协议文件已经不起作用了，因此对于新手而言，如何正确规范的编写robots协议很重要。

在此之前，我们已经给大家讲解了robots协议语法，这个是非常重要的一部分内容，大家一定要记住，当然如果不记得了，可以查看文档，下面我们将给大家讲解详细的robots编写规范。

1 robots核心规范实例

一般来讲，robots它有一套标准的语句构成，大家只要遵循这项规范写法，一般不会错，注意大小写，这是非常容易出错的。

首先我们在开头的第一句就是我们的用户代理：

User-agent:

注意User的首字母要大写，否则无效。

第二个语法段就开始写我们的文件权限。
Disallow:
Allow:

注意开头用大写字母。

合起来就是像下面这样：

User-agent:你希望的搜索引擎程序名称
Disallow: 文件
Allow:文件

2 常见robots.txt协议编写方式

1）Allow允许文件类型

假如以百度为例，允许百度抓取则可以像以下例子编写。

User-agent: Baiduspider
Allow: /

注意字段用冒号并且空格之后写文件目录。

比如我们允许搜索引擎对某目录下所有文件进行抓取，可以这么写：

Allow: /SEOyh/*

比如你的网站有动态网址，我们可以这样设置：

Allow: /*？*

这样基本可以全部抓取你网站的动态网址，因为有些网站就是以动态网址为主。

2）Disallow不允许字段

这个用的比较多，通常写法也比较多，一下将会列举常见的写法，让大家更深入的了解这其中的原理。

限制某个目录，我们可以这样写

Disallow: /baidu/

限制某个文件，我们可以这样写：

Disallow: /baidu.php

限制某个目录下所有文件，我们可以这样写：

Disallow: / baidu /*

禁止抓取图片，我们可以这样写：

Disallow: / baidu /*.jpg

禁止抓取特定图片类型，我们可以这样写

Disallow: / baidu /*.gif或者Disallow: / baidu /*.gif$

依次类推，我们对所有的文件和目录都可以这么写。

3)sitemap字段

这个比较特殊，所以拿出单独讲，这个主要针对sitemap文件的抓取，给予优先权。编写格式如下：
Sitemap: http://www.seojingxue.com/sitemap.XML

或者

Sitemap: http://www.seojingxue.com/sitemap.txt

3 robots搜索引擎程序限制问题

如果你不想某些搜索引擎蜘蛛来抓取你的网站，你可以这样编写：

User-agent: Googlebot（谷歌）
Disallow: /

User-agent: Baiduspider (百度)
Disallow: /

User-agent: baiduspider (百度)
Disallow: /

注意，蜘蛛程序命名方式也是区分大小写的，如果不太确定，可以写两个，以防万一。

4 常见robots错误编写方式

1）字段大小写不分。很多新手在编写该协议的时候，往往是不记得是大写还是小写，所以如果不记得了，应该马上查资料。

2）单词拼写错误。别看几个单词，很多新手不写上几遍是记不住的，特别是对英文不敏感的伙伴，这个需要加强记忆。

3）目录文件大小写不分。这个很重要，相当于你的网址一样，也是区分大小写的，除非你在输出的时候进行转换，才有可能避免出现死链。举个简单的例子，/dog目录下，这个是非常有意思的一个例子。

/dog：匹配以 /dog 开头的任何路径。
/dog*:等同于 /dog。结尾的通配符会被忽略。
事实上这个也可以看做目录，也可以看做一个文档，它可以匹配如下文档：

    /dog
    /dog.html
    /dog/dog.html
    /dogheads
    /dogheads/yummy.html
/dog.php?id=anything

但是不能匹配如下操作：

    /Dog.asp
    /reddog
    /?id=dog
    /green/zili

另外，/dog/也有必要将一下：

这个/dog/的意思是匹配 /fish/ 文件夹中的任何内容。

该目录可以匹配如下：

    /dog/
    /animals/dog/
    /fish/?id=anything
    /fish/salmon.htm

不能匹配如下目录文档：

    / dog
    / dog.html
    / Dog /Salmon.asp

基本上robot的编写方式就如上所言，大家只需根据自己的网站进行编写即可，一些容易错的地方一定要注意。

显示全部内容...

robots

SEO学习

robots协议文件如何规范书写?新手SEO网站优化编写robots协议常见错误方式

时间：2021-10-31