当兼容的搜索引擎机器人访问网站时,它首先检查服务器上的
通过Robots.txt文件,您可以指示搜索引擎蜘蛛抓取哪些目录和文件并对其进行索引。
当兼容的搜索引擎机器人访问网站时,它首先检查服务器上的“ robots.txt”文件。如果文件存在,则机械手读取内容以获取有关其可以爬网和建立索引的说明。请注意,搜索引擎机器人没有义务遵循Robots.txt文件中给出的说明。但是,大多数搜索引擎机器人都会尊重他们。
为什么要使用Robots.txt文件?
出于多种原因,您可能希望停止搜索引擎对网站的特定部分进行爬网和编制索引。
这些包括:
- 搜索引擎优化页面。例如,假设您针对Google,AltaVista和Inktomi优化了网页。您不希望一个引擎为其他引擎设计的页面编制索引,否则他们可以将它们视为旨在对它们的索引进行垃圾邮件处理的重复副本,这可能会导致禁止。
- 隐藏敏感内容,例如内部报告和尚未准备发布的内容。
如何创建Robots.txt文件
要创建robots.txt文件,请执行以下操作:
1.使用可以保存ASCII .txt文件的文本编辑器创建一个空白文本文件。您可以使用Windows随附的写字板或记事本。您应该可以在以下位置找到它们:开始菜单->程序->附件。
2.使用以下语法为每个搜索引擎机器人插入说明:
用户代理:机器人名称
禁止:文件或目录名称
用户代理 -用户代理是搜索引擎机器人的名称。如果要对所有代理人都使用相同的排除,则还可以包括多个代理人名称。您无需担心是否区分大小写,因此“ googlebot”与“ GOOGLEBOT”相同。星号“ *”表示所有机械手。
禁止 -禁止指示用户代理中指定的漫游器您不想爬网或建立索引的目录或文件。
以下是一些示例robots.txt文件说明:
从整个网站中排除所有机器人(不建议!):
用户代理:*
禁止:/
允许所有机器人访问网站。因为什么都不允许,所以一切都被允许:
用户代理:*
禁止:
或者,创建一个空白的robots.txt文件。
允许所有机械手访问所有文件和目录,但列出的两个目录除外:
用户代理:*
禁止:/ cgi-bin /
禁止:/ images /
允许Google的漫游器访问除cgi-bin目录之外的所有文件和目录:
用户代理:Googlebot
不允许:/ cgi-bin /
允许Google的漫游器访问所有文件和目录,但列出的文件除外:
用户代理:Googlebot
不允许:/members/login.html
空行表示新的“记录”-新的用户代理命令。禁止Googlebot从网站上访问,其他所有漫游器都无法访问所有内容,但cgi-bin目录除外:
用户代理:Googlebot
不允许:/用户代理:*
不允许:/ cgi-bin /
允许Googlebot完全访问,但排除所有其他机器人:
用户代理:Googlebot
不允许:用户代理:*
禁止:/
禁止所有漫游器访问以某个值开头的文件或目录:
用户代理:*
禁止:/ image
禁止:/ image /
第一个禁止命令禁止/ image /目录,/image.html和/images.html文件。
第二个disallow命令仅禁止/ image /目录,但允许其他文件,例如/image.html和images.html。
您可以添加任意行以排除所需的目录和页面。每个禁止语句将应用于指定的最后一个用户代理。
指示所有漫游器不要抓取动态生成的页面:
用户代理:*
不允许:/ *?
指示所有漫游器不要抓取以.gif结尾的文件:
用户代理:*
不允许:/ * 。gif
3.将文件另存为“ robots.txt”(必须全部小写),然后将其上传到服务器的根目录或顶层目录。
例如:
http://www.25qi.com/robots.txt <-根目录
请注意,每个站点只能有一个“ robots.txt”文件。