Robots.txt要怎么写 阐述Robots.txt的写法问题
今天发现公司网站一个用来测试的站竟然被大量收录,而我们的本意是不希望其被收录的,因为之前那是程序用来测试的,不用优化所以也就没告诉我,现在我发现了,而且是测试过后就将很多数据删除了,这会影响到主站,因为测试的是一个主站的耳机域名,绑定是一个二级目录。于是我着手针对此站写了一个robots协议:
User-agent: *Disallow: /
当然,robots协议并非是上面写的那么简单,上面是告诉任何搜索引擎不要收录的我网站内容而已,而很多情况下我们是不会这么做的,只是不希望某一部分不被收录和建立索引而已!那么,就牵扯到了robots.txt的写法问题,这里就借助王发利博客一起来看看robots协议的一些具体写法!
定义:什么是robots?
Robots.txt是一个文件,是用来告诉搜索引擎那些网页可以收录,那些不可以,是规范搜索引擎蜘蛛在索引网站时的索引范围。更好地保护那些我们不想被别人看见的隐私,私密文件! 这个很重要哦,看看曾经有人还为此打官司了,详文见《Robots协议案:百度败诉于360 法院判为自由竞争》!
Robots.txt文件建立注意事项:
1. 文件必须放在网站根目录下。
2. 文件名称必须全部用小写。
3. 即使你允许全部的网站内容均可被抓取,建议还是建一个空的robots文件最好。
4. Robots.txt虽然禁止了收录,但是有时候还是会出现在搜索结果中,比如非常热门和用户急需的某些信息,如果要完全禁止,建议写 Meta Robotx属性。例如:
<meta name="robots" content="index,follow">;<meta name="robots" content="noindex,follow">;<meta name="robots" content="index,nofollow">;<meta name="robots" content="noindex,nofollow">;怎么使用Robots Meta标签?
当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。
通常content属性里面的包含的标签有:
NOINDEX -不索引当前页面
NOFOLLOW -不跟踪当前页面中所有的链接
NOARCHIVE -在搜索结果中不保存当前页面的快照
NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照
NOODP -搜索结果中不使用
DMOZ中的描述信息,Yahoo、MSN也支持此类标签。
NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同
5. Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。
Robots.txt标准写法例举:
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robot访问网站的任何部分
User-agent: *
Disallow:
例3. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:1.三个目录要分别写。2.请注意最后要带斜杠。3.带斜杠与不带斜杠的区别 (带斜杠/ 表示禁止某个目录下的所有文件被索引,不带斜杠/表示只禁止该该目录,如不带斜杠时wangfali.com/marketing-news 会不被收录,但是wangfali.com/marketing-news/3608.html 还是会正常收录)
例4. 允许访问特定目录中的部分url
假如王发利博客只需要seo-course目录下的3491.html允许访问即可,那就写:
User-agent: *
Allow: /seo-course/3491.html
Disallow: /seo-course/
注意事项:允许收录优先级要高于禁止收录。Disallow: /a/ 必须写在 Allow: /seo-course/3491.html 之后。其他目录以此类推,只需要将seo-course和3491替换成自己对于的目录和url即可!
例5. 通配符的使用例举,通配符包括("$" 结束符;"*"任意符)
User-agent: *
Disallow: /*?* (?表示含动态的url)
例6. 禁止搜索引擎抓取网站上所有图片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
如果还有其他文件格式,照着加上即可,具体情况具体分析,掌握这些语法规则以及通配符的使用大多数情况是可以帮你解决问题的!
例7. 仅禁止某一个搜索引擎蜘蛛的访问例举
——禁止百度访问您的网站:
User-agent: Baiduspider
Disallow: /
——禁止谷歌访问您的网站:
User-agent: Googlebot
Disallow: /
注意事项:这里只是将User-agent: * 中的星号 * 换成了具体的搜索引擎蜘蛛名称,*代表任意!其规则是:
User-agent: 蜘蛛名称
Disallow: /不允许访问的部分
allow: /允许访问的部分
常识补充:常见的搜索引擎蜘蛛名称:
百度:Baiduspider ;Vista:Scooter ; Alexa:ia_archiver ;谷歌:Googlebot ; Fast:FAST-WebCrawler ; Msn:MSNBOT ; 360:360Spider ; 搜狗:Sogou News Spider ; SOSO:Sosospider ; 必应:bingbot ; 雅虎:“Yahoo! Slurp China”或者Yahoo! ; 有道:YoudaoBot,YodaoBot ; 即刻:JikeSpider 等!还要一些其他的一般用不到,如需要自己去查询了,这里就不再赘述了!
本文综述:对于Robots.txt要怎么写以及Robots.txt的写法问题就到此为止吧!更加详细的内容你还可以去看看百度官方的解释:http://help.baidu.com/question?prod_en=search&;class=499 不管你是否知道这个robots.txt 是什么意思,robots.txt怎么写都没关系,本文也许可以帮您解惑,还要就是实在自己懒得写可以百度一下robots在线生成,网上有很多生成工具!