SEO学习网站
2021-10-31
在上一篇文章中我们讲解了关于robots.txt协议文件的基本定义,以及robots.txt的由来,这是很少人提起的,所以在上一篇文章中我们着重讲解了robots.txt的发展历史,关于robots协议文
在上一篇文章中我们讲解了关于robots.txt协议文件的基本定义,以及robots.txt的由来,这是很少人提起的,所以在上一篇文章中我们着重讲解了robots.txt的发展历史,关于robots协议文件是什么,可以点击访问,在下面的内容中,我们将会讲解和我们SEO优化相关的内容,robots.txt在我们的网站优化过程起到什么重要作用,这是我们必须要了解的,也是必须掌握的内容。
robots协议文件的作用有多大,你可能无法想象得到,当然即使你的网站没有这个文件,也是没有关系的,当然有了这个文件就相当增加了一层道德准则,对于搜索引擎爬虫还是有约束力的,那么下面我们来讲一讲它的作用。
事实上,搜索引擎爬虫程序在爬取我们网站的时候,是需要向我们 服务发送请求加载资源的,如果我们把一些不重要或者不应该作为收录的文件放在那里,而不加以限制,这个时候对服务器的压力是比较大的,加上搜索引擎爬虫程序爬取的次数不确定,频繁抓取也会引起不必要的麻烦。
为什么robots.txt协议能够提高爬行效率呢?这其实很简单,就相当于你在做某件事情的时候,如果你提前做好计划,那么这件事做起来就得心应手,如果你在做这件事之前毫无计划或头绪,那么就只能一边做,一边摸索,这个效率可想而知。
而robots.txt协议就是告诉你应该做些什么事情,不应该做哪些事情,这从一定程度上大大提升了爬取效率,把力量集中在某一处。
只要你的网站出现在互联网上,你的网站就有可能被搜索引擎爬取,当然不一定会收录,因此,如果你没有做一些搜索引擎优化排名,那么你可以选择屏蔽掉这些所谓的“垃圾程序”,这样对你的站点是有很大好处的。
通常情况下,我们会对后台所有文件进行屏蔽,只留下前端页面进行展示或抓取,比如一些js及css、php、asp、java等一些后台文件,这些都是可以进行屏蔽掉,以提高站点友好性。
当然重要的是可以限制对404页面的抓取,这是非常关键的,包括我们针对性的死链也可以进行屏蔽,这样能够增加搜索引擎爬虫对站点的友好性,会给予更高的评分,在收录和排名方面都有显著提高。
在书写robots协议文件之前,我们先来了解一下其主要语法规则,这对于我们书写robots协议很重要,错误的书写相当于没有写一样,起不到任何作用,因此,在下面的内容中,我们将详细讲解这些规范。
请注意robots协议的文件格式,不要把它文件后缀命名为html、php、js、java等之类的文件,robots的文件后缀是txt,就是我们常见的记事本格式,很简单。
这个是“用户代理”的意思,就是用来描述搜索引擎类型的,因为搜索引擎的类型很多,不同的搜索引擎,其爬虫程序是不一样的,也就是身份不一样,如果你想要允许或限制某些搜索引擎,可以利用User-agent,然后后面加上某类型搜索引擎,当然你也可以允许所有或屏蔽所有。
从单词上可以看出是什么意思,也就是“不允许”的意思,这个是用来限制搜索引擎爬去目录及文件的语法关键词,千万别拼写错误,否则将不起作用,通常第一个字母是大写字母。
从字面上可以知道,这个是“允许”的意思,也就是说如果你某些页面比较重要,那么可以使用这个关键词,特别是我们的sitemap页面,当然这个写法可能不太一样,也可以使用这个单词语法来说写。
通配符讲解
这个符号是代表0个,一个,或多个的意思,比如User-agent: *就是代表多个搜索引擎程序。
这实际上在robots中不作为通配符,可以在链接中使用,当然这要看链接的具体表现形式,如果你的链接是这样www.seojingxue.com/robots/?robots=1,那么可以使用这个符号全部屏蔽该问号下的全部链接。
这个是以什么结尾的意思,比如我们屏蔽以jpg为结尾的所有图片,可以这么些.jpg$,这样就可以屏蔽掉所有的图片了。
这个用的比较少,从谷歌robots协议书写规范中,这个似乎不再使用,crawl-delay实际就是抓取延迟的意思,它表示搜索引擎爬虫在抓取间隔上的时间限制。
这个就是个注释,如果需要在文件中进行说明,可以使用#,然后后面加上说明文字即可。
这个就是专门用来为了sitemap页面进行书写的规范,注意区分大小写。
以上就是关于robots协议文件的全部语法以及robots协议文件的作用讲解,如果还有什么问题可以告诉我们。
robots.txt协议文件在网站优化中起到什么作用?
robots协议文件的作用有多大,你可能无法想象得到,当然即使你的网站没有这个文件,也是没有关系的,当然有了这个文件就相当增加了一层道德准则,对于搜索引擎爬虫还是有约束力的,那么下面我们来讲一讲它的作用。
1 降低资源请求
事实上,搜索引擎爬虫程序在爬取我们网站的时候,是需要向我们 服务发送请求加载资源的,如果我们把一些不重要或者不应该作为收录的文件放在那里,而不加以限制,这个时候对服务器的压力是比较大的,加上搜索引擎爬虫程序爬取的次数不确定,频繁抓取也会引起不必要的麻烦。
2 提高爬行效率
为什么robots.txt协议能够提高爬行效率呢?这其实很简单,就相当于你在做某件事情的时候,如果你提前做好计划,那么这件事做起来就得心应手,如果你在做这件事之前毫无计划或头绪,那么就只能一边做,一边摸索,这个效率可想而知。
而robots.txt协议就是告诉你应该做些什么事情,不应该做哪些事情,这从一定程度上大大提升了爬取效率,把力量集中在某一处。
3 限制恶意蜘蛛请求
只要你的网站出现在互联网上,你的网站就有可能被搜索引擎爬取,当然不一定会收录,因此,如果你没有做一些搜索引擎优化排名,那么你可以选择屏蔽掉这些所谓的“垃圾程序”,这样对你的站点是有很大好处的。
4 相关前端展示页面的屏蔽
通常情况下,我们会对后台所有文件进行屏蔽,只留下前端页面进行展示或抓取,比如一些js及css、php、asp、java等一些后台文件,这些都是可以进行屏蔽掉,以提高站点友好性。
当然重要的是可以限制对404页面的抓取,这是非常关键的,包括我们针对性的死链也可以进行屏蔽,这样能够增加搜索引擎爬虫对站点的友好性,会给予更高的评分,在收录和排名方面都有显著提高。
robots.txt协议文件关键词解释
在书写robots协议文件之前,我们先来了解一下其主要语法规则,这对于我们书写robots协议很重要,错误的书写相当于没有写一样,起不到任何作用,因此,在下面的内容中,我们将详细讲解这些规范。
1 文件格式
请注意robots协议的文件格式,不要把它文件后缀命名为html、php、js、java等之类的文件,robots的文件后缀是txt,就是我们常见的记事本格式,很简单。
2 User-agent关键词
这个是“用户代理”的意思,就是用来描述搜索引擎类型的,因为搜索引擎的类型很多,不同的搜索引擎,其爬虫程序是不一样的,也就是身份不一样,如果你想要允许或限制某些搜索引擎,可以利用User-agent,然后后面加上某类型搜索引擎,当然你也可以允许所有或屏蔽所有。
3 Disallow关键词
从单词上可以看出是什么意思,也就是“不允许”的意思,这个是用来限制搜索引擎爬去目录及文件的语法关键词,千万别拼写错误,否则将不起作用,通常第一个字母是大写字母。
4 Allow关键词
从字面上可以知道,这个是“允许”的意思,也就是说如果你某些页面比较重要,那么可以使用这个关键词,特别是我们的sitemap页面,当然这个写法可能不太一样,也可以使用这个单词语法来说写。
通配符讲解
5 *符号
这个符号是代表0个,一个,或多个的意思,比如User-agent: *就是代表多个搜索引擎程序。
6 ?问号
这实际上在robots中不作为通配符,可以在链接中使用,当然这要看链接的具体表现形式,如果你的链接是这样www.seojingxue.com/robots/?robots=1,那么可以使用这个符号全部屏蔽该问号下的全部链接。
7 $符号
这个是以什么结尾的意思,比如我们屏蔽以jpg为结尾的所有图片,可以这么些.jpg$,这样就可以屏蔽掉所有的图片了。
8 crawl-delay语法
这个用的比较少,从谷歌robots协议书写规范中,这个似乎不再使用,crawl-delay实际就是抓取延迟的意思,它表示搜索引擎爬虫在抓取间隔上的时间限制。
9 # 符号
这个就是个注释,如果需要在文件中进行说明,可以使用#,然后后面加上说明文字即可。
10 sitemap 字段
这个就是专门用来为了sitemap页面进行书写的规范,注意区分大小写。
以上就是关于robots协议文件的全部语法以及robots协议文件的作用讲解,如果还有什么问题可以告诉我们。
显示全部内容...