首页>技术知识>SEO学习 你了解robots.txt协议文件是什么吗? robots协议的发展历史你知道吗?
SEO学习网站
2021-10-29
在搜索引擎出来的时候,搜索引擎相关算法是没有那么完善的,随便扔一个网站都可以得到一个很好的排名,更深入一点讲,就是搜索引擎在网页抓取方面不太友好。我们知道,网站上不是所有
搜索引擎出来的时候,搜索引擎相关算法是没有那么完善的,随便扔一个网站都可以得到一个很好的排名,更深入一点讲,就是搜索引擎在网页抓取方面不太友好。我们知道,网站上不是所有的数据都是能够公开的,对于一些比较隐私的内容,我们是不想公开的,不想别别人发现,特别是比较重要的内容。
 
举个简单的例子,我们都有后台登入页面吧,你希望你的网站后台登入被别人发现吗?应该不太愿意吧,万一哪个黑客对你的网站感兴趣,那岂不是便宜了这些人,跟严重的方面来讲,金融行业相关私密数据哪能随便给你抓取到,当然涉及机密的数据,是有专门的存储服务器来存储,是有各种安全防护网保护的,今天我们不是讨论安全方面的东西。而这个时候robots.txt协议文件就出现了。关于robots.txt协议文件是什么,我们下一步深入讨论。

<a href=robots协议" src="https://im.25qi.com/d/file/seo/202110291-210929210414G1.jpg" style="width: 602px; height: 341px;" />
 

1 robots.txt协议文件是什么

 
对于刚接触互联网的伙伴,特别是有自己网站的伙伴们,robots.txt是什么估计一时也不清楚,其实以目前的搜索引擎算法,robots.txt文件也并不是必备的,通常情况下,搜索引擎不会抓取你不想公开的链接,所以这一点搜索引擎大多数情况下可以做到,但是为了以防万一,robots.txt是需要有的。
 
robots.txt协议文件是什么?通俗来讲,它只是一套搜索引擎爬虫的法律规定。当然,从人类角度来讲,它还不具有法律效应,更多的是道德层面,因此网络爬虫有时候并不会按照这个规则来抓取你的网站。
 

2 robots发展历史

 
robots是机器人的意思,当然这套协议是从国外传进国内的,这套协议标准最初是由Martijn Koster于1994年在www- talk邮件列表上提出的,该列表是当时与www相关活动的主要沟通渠道。另外Charles Stross曾经表示,他曾经编写了一些垃圾爬虫,试图让其在自己的网站上进行抓取,但均遭到robots的拒绝,因此,Koster提出robots.txt协议很快得到了大家的广泛认可,不管是现在,还是在未来,网络爬虫都将遵循这个标准。
 
比如国外的谷歌、WebCrawler、Lycos和AltaVista、bing、infoseek,以及国内的百度、搜狗、360等都将遵循这一规则。相关搜索引擎了解可以关注《国外搜索搜索引擎发展历史及十大搜索引擎推荐》
 
 

3 robots.txt协议文件出现的意义

 
robots协议文件标准的出现,意味着搜索引擎不再是可怕的“军阀”,随意的“烧杀掳掠”,robots.txt它将严格的限制搜索引擎爬虫程序的活动范围,从某种程度上看,搜索引擎在大部分情况下,都是遵循这一套协议。
 
 
robots.txt协议让人们的数据隐私得到一定的保护,我们不再为自己的后台数据泄露而感到惊恐,当然从规范的搜索引擎爬虫程序来说,这是可以实现的,但是我们并不能保证所有的爬虫程序都遵守这个协议,就如同人们会突破道德底线一样,因此,robots.txt协议文件显得比较温和。
 
robots.txt协议文件从某个角度来看,对web服务性能开销有一定的保护作用,阻止某些文件不给爬取,从而降低web服务器的频繁请求。
 
当然,robots.txt协议文件让我们实现了与搜索引擎爬虫沟通的机会,如果你有重点页面需要优先抓取,那么也可以通过robots.txt协议文件来实现。
 
另外,如果你不喜欢某些爬虫程序,比如俄罗斯yandex、新浪Iaskspider、Yahoo! Slurp等,这些也可以进行屏蔽,避免不必要的资源浪费。
 
在下一篇中,我们将会详细讲解robots.txt协议文件作用及相关名词解释、书写方式。
显示全部内容...