首页>技术知识>SEO学习你了解robots.txt协议文件是什么吗? robots协议的发展历史你知道吗？

SEO学习网站

2021-10-29

在搜索引擎出来的时候，搜索引擎相关算法是没有那么完善的，随便扔一个网站都可以得到一个很好的排名，更深入一点讲，就是搜索引擎在网页抓取方面不太友好。我们知道，网站上不是所有

在搜索引擎出来的时候，搜索引擎相关算法是没有那么完善的，随便扔一个网站都可以得到一个很好的排名，更深入一点讲，就是搜索引擎在网页抓取方面不太友好。我们知道，网站上不是所有的数据都是能够公开的，对于一些比较隐私的内容，我们是不想公开的，不想别别人发现，特别是比较重要的内容。

举个简单的例子，我们都有后台登入页面吧，你希望你的网站后台登入被别人发现吗？应该不太愿意吧，万一哪个黑客对你的网站感兴趣，那岂不是便宜了这些人，跟严重的方面来讲，金融行业相关私密数据哪能随便给你抓取到，当然涉及机密的数据，是有专门的存储服务器来存储，是有各种安全防护网保护的，今天我们不是讨论安全方面的东西。而这个时候robots.txt协议文件就出现了。关于robots.txt协议文件是什么，我们下一步深入讨论。

<a href=

robots协议" src="https://im.25qi.com/d/file/seo/202110291-210929210414G1.jpg" style="width: 602px; height: 341px;" />

1 robots.txt协议文件是什么

对于刚接触互联网的伙伴，特别是有自己网站的伙伴们，robots.txt是什么估计一时也不清楚，其实以目前的搜索引擎算法，robots.txt文件也并不是必备的，通常情况下，搜索引擎不会抓取你不想公开的链接，所以这一点搜索引擎大多数情况下可以做到，但是为了以防万一，robots.txt是需要有的。

robots.txt协议文件是什么？通俗来讲，它只是一套搜索引擎爬虫的法律规定。当然，从人类角度来讲，它还不具有法律效应，更多的是道德层面，因此网络爬虫有时候并不会按照这个规则来抓取你的网站。

2 robots发展历史

robots是机器人的意思，当然这套协议是从国外传进国内的，这套协议标准最初是由Martijn Koster于1994年在www- talk邮件列表上提出的，该列表是当时与www相关活动的主要沟通渠道。另外Charles Stross曾经表示，他曾经编写了一些垃圾爬虫，试图让其在自己的网站上进行抓取，但均遭到robots的拒绝，因此，Koster提出robots.txt协议很快得到了大家的广泛认可，不管是现在，还是在未来，网络爬虫都将遵循这个标准。

比如国外的谷歌、WebCrawler、Lycos和AltaVista、bing、infoseek，以及国内的百度、搜狗、360等都将遵循这一规则。相关搜索引擎了解可以关注《国外搜索搜索引擎发展历史及十大搜索引擎推荐》

3 robots.txt协议文件出现的意义

robots协议文件标准的出现，意味着搜索引擎不再是可怕的“军阀”，随意的“烧杀掳掠”，robots.txt它将严格的限制搜索引擎爬虫程序的活动范围，从某种程度上看，搜索引擎在大部分情况下，都是遵循这一套协议。

robots.txt协议让人们的数据隐私得到一定的保护，我们不再为自己的后台数据泄露而感到惊恐，当然从规范的搜索引擎爬虫程序来说，这是可以实现的，但是我们并不能保证所有的爬虫程序都遵守这个协议，就如同人们会突破道德底线一样，因此，robots.txt协议文件显得比较温和。

robots.txt协议文件从某个角度来看，对web服务性能开销有一定的保护作用，阻止某些文件不给爬取，从而降低web服务器的频繁请求。

当然，robots.txt协议文件让我们实现了与搜索引擎爬虫沟通的机会，如果你有重点页面需要优先抓取，那么也可以通过robots.txt协议文件来实现。

另外，如果你不喜欢某些爬虫程序，比如俄罗斯yandex、新浪Iaskspider、Yahoo! Slurp等，这些也可以进行屏蔽，避免不必要的资源浪费。

在下一篇中，我们将会详细讲解robots.txt协议文件作用及相关名词解释、书写方式。

显示全部内容...

robots

SEO学习

你了解robots.txt协议文件是什么吗? robots协议的发展历史你知道吗？

时间：2021-10-29

robots协议" src="https://im.25qi.com/d/file/seo/202110291-210929210414G1.jpg" style="width: 602px; height: 341px;" />