SEO学习网站
2021-10-31
robots.txt协议文件看似非常简单的一个文件,但是其格式规范要求相当严格,一旦写错就会失效,打个比方,一把配错的钥匙,已经不能正确打开指定的房间号了,相当于一个废品,所以对于所有
robots.txt协议文件看似非常简单的一个文件,但是其格式规范要求相当严格,一旦写错就会失效,打个比方,一把配错的钥匙,已经不能正确打开指定的房间号了,相当于一个废品,所以对于所有的搜索引擎而言,这个robots协议文件已经不起作用了,因此对于新手而言,如何正确规范的编写robots协议很重要。
在此之前,我们已经给大家讲解了robots协议语法,这个是非常重要的一部分内容,大家一定要记住,当然如果不记得了,可以查看文档,下面我们将给大家讲解详细的robots编写规范。
一般来讲,robots它有一套标准的语句构成,大家只要遵循这项规范写法,一般不会错,注意大小写,这是非常容易出错的。
首先我们在开头的第一句就是我们的用户代理:
User-agent:
注意User的首字母要大写,否则无效。
第二个语法段就开始写我们的文件权限。
Disallow:
Allow:
注意开头用大写字母。
合起来就是像下面这样:
User-agent:你希望的搜索引擎程序名称
Disallow: 文件
Allow:文件
假如以百度为例,允许百度抓取则可以像以下例子编写。
User-agent: Baiduspider
Allow: /
注意字段用冒号并且空格之后写文件目录。
比如我们允许搜索引擎对某目录下所有文件进行抓取,可以这么写:
Allow: /SEOyh/*
比如你的网站有动态网址,我们可以这样设置:
Allow: /*?*
这样基本可以全部抓取你网站的动态网址,因为有些网站就是以动态网址为主。
这个用的比较多,通常写法也比较多,一下将会列举常见的写法,让大家更深入的了解这其中的原理。
限制某个目录,我们可以这样写
Disallow: /baidu/
限制某个文件,我们可以这样写:
Disallow: /baidu.php
限制某个目录下所有文件,我们可以这样写:
Disallow: / baidu /*
禁止抓取图片,我们可以这样写:
Disallow: / baidu /*.jpg
禁止抓取特定图片类型,我们可以这样写
Disallow: / baidu /*.gif或者Disallow: / baidu /*.gif$
依次类推,我们对所有的文件和目录都可以这么写。
这个比较特殊,所以拿出单独讲,这个主要针对sitemap文件的抓取,给予优先权。编写格式如下:
Sitemap: http://www.seojingxue.com/sitemap.XML
或者
Sitemap: http://www.seojingxue.com/sitemap.txt
如果你不想某些搜索引擎蜘蛛来抓取你的网站,你可以这样编写:
User-agent: Googlebot(谷歌)
Disallow: /
User-agent: Baiduspider (百度)
Disallow: /
User-agent: baiduspider (百度)
Disallow: /
注意,蜘蛛程序命名方式也是区分大小写的,如果不太确定,可以写两个,以防万一。
1)字段大小写不分。很多新手在编写该协议的时候,往往是不记得是大写还是小写,所以如果不记得了,应该马上查资料。
2)单词拼写错误。别看几个单词,很多新手不写上几遍是记不住的,特别是对英文不敏感的伙伴,这个需要加强记忆。
3)目录文件大小写不分。这个很重要,相当于你的网址一样,也是区分大小写的,除非你在输出的时候进行转换,才有可能避免出现死链。举个简单的例子,/dog目录下,这个是非常有意思的一个例子。
/dog:匹配以 /dog 开头的任何路径。
/dog*:等同于 /dog。结尾的通配符会被忽略。
事实上这个也可以看做目录,也可以看做一个文档,它可以匹配如下文档:
/dog
/dog.html
/dog/dog.html
/dogheads
/dogheads/yummy.html
/dog.php?id=anything
但是不能匹配如下操作:
/Dog.asp
/reddog
/?id=dog
/green/zili
另外,/dog/也有必要将一下:
这个/dog/的意思是匹配 /fish/ 文件夹中的任何内容。
该目录可以匹配如下:
/dog/
/animals/dog/
/fish/?id=anything
/fish/salmon.htm
不能匹配如下目录文档:
/ dog
/ dog.html
/ Dog /Salmon.asp
基本上robot的编写方式就如上所言,大家只需根据自己的网站进行编写即可,一些容易错的地方一定要注意。
在此之前,我们已经给大家讲解了robots协议语法,这个是非常重要的一部分内容,大家一定要记住,当然如果不记得了,可以查看文档,下面我们将给大家讲解详细的robots编写规范。
1 robots核心规范实例
一般来讲,robots它有一套标准的语句构成,大家只要遵循这项规范写法,一般不会错,注意大小写,这是非常容易出错的。
首先我们在开头的第一句就是我们的用户代理:
User-agent:
注意User的首字母要大写,否则无效。
第二个语法段就开始写我们的文件权限。
Disallow:
Allow:
注意开头用大写字母。
合起来就是像下面这样:
User-agent:你希望的搜索引擎程序名称
Disallow: 文件
Allow:文件
2 常见robots.txt协议编写方式
1)Allow允许文件类型
假如以百度为例,允许百度抓取则可以像以下例子编写。
User-agent: Baiduspider
Allow: /
注意字段用冒号并且空格之后写文件目录。
比如我们允许搜索引擎对某目录下所有文件进行抓取,可以这么写:
Allow: /SEOyh/*
比如你的网站有动态网址,我们可以这样设置:
Allow: /*?*
这样基本可以全部抓取你网站的动态网址,因为有些网站就是以动态网址为主。
2)Disallow不允许字段
这个用的比较多,通常写法也比较多,一下将会列举常见的写法,让大家更深入的了解这其中的原理。
限制某个目录,我们可以这样写
Disallow: /baidu/
限制某个文件,我们可以这样写:
Disallow: /baidu.php
限制某个目录下所有文件,我们可以这样写:
Disallow: / baidu /*
禁止抓取图片,我们可以这样写:
Disallow: / baidu /*.jpg
禁止抓取特定图片类型,我们可以这样写
Disallow: / baidu /*.gif或者Disallow: / baidu /*.gif$
依次类推,我们对所有的文件和目录都可以这么写。
3)sitemap字段
这个比较特殊,所以拿出单独讲,这个主要针对sitemap文件的抓取,给予优先权。编写格式如下:
Sitemap: http://www.seojingxue.com/sitemap.XML
或者
Sitemap: http://www.seojingxue.com/sitemap.txt
3 robots搜索引擎程序限制问题
如果你不想某些搜索引擎蜘蛛来抓取你的网站,你可以这样编写:
User-agent: Googlebot(谷歌)
Disallow: /
User-agent: Baiduspider (百度)
Disallow: /
User-agent: baiduspider (百度)
Disallow: /
注意,蜘蛛程序命名方式也是区分大小写的,如果不太确定,可以写两个,以防万一。
4 常见robots错误编写方式
1)字段大小写不分。很多新手在编写该协议的时候,往往是不记得是大写还是小写,所以如果不记得了,应该马上查资料。
2)单词拼写错误。别看几个单词,很多新手不写上几遍是记不住的,特别是对英文不敏感的伙伴,这个需要加强记忆。
3)目录文件大小写不分。这个很重要,相当于你的网址一样,也是区分大小写的,除非你在输出的时候进行转换,才有可能避免出现死链。举个简单的例子,/dog目录下,这个是非常有意思的一个例子。
/dog:匹配以 /dog 开头的任何路径。
/dog*:等同于 /dog。结尾的通配符会被忽略。
事实上这个也可以看做目录,也可以看做一个文档,它可以匹配如下文档:
/dog
/dog.html
/dog/dog.html
/dogheads
/dogheads/yummy.html
/dog.php?id=anything
但是不能匹配如下操作:
/Dog.asp
/reddog
/?id=dog
/green/zili
另外,/dog/也有必要将一下:
这个/dog/的意思是匹配 /fish/ 文件夹中的任何内容。
该目录可以匹配如下:
/dog/
/animals/dog/
/fish/?id=anything
/fish/salmon.htm
不能匹配如下目录文档:
/ dog
/ dog.html
/ Dog /Salmon.asp
基本上robot的编写方式就如上所言,大家只需根据自己的网站进行编写即可,一些容易错的地方一定要注意。
显示全部内容...