robots.txt是一个包含网站索引参数的文本文件,供搜索引擎机器人使用。Yandex支持具有高级功能的RobotsExclusion协议。在抓取网站时,Yandex机器人会加载robots.txt文件。如果对文件的最新请求显示某个网站页面或部分被阻止,机器人将不会为它们编制索引。Yandexrobots.txt文件要求Yandexrobots可以正确处理robots.txt,但必须满足以下要求:文件大小不得超过500KB。它是一个名为“robots”的TXT文件,robots.txt。该文件位于网站的根目录中。该文件可供机器人使用:托管网站的服务器以200OK的HTTP代码响应。检查服务器的响应。如果文件不符合要求,则该站点被认为是开放索引的,即Yandex搜索引擎可以自由访问该页面的内容。Yandex支持从一个站点上的robots.txt文件重定向到另一个站点上的文件。在这种情况下,将考虑目标文件中的指令。这种重定向在移动站点时很有用。Yandex访问robots.txt的一些规则在robots.txt文件中,机器人会检查以User-agent:开头的记录,并查找字符Yandex(大小写不重要)或*。如果检测到User-agent:Yandex字符串,则忽略User-agent:*字符串。如果找不到User-agent:Yandex和User-agent:*字符串,则认为该机器人具有无限访问权限。您可以为Yandex机器人输入单独的命令。例如,下面的一些例子:User-agent:YandexBot#usedforindexcrawlersDisallow:/*id=User-agent:Yandex#willworkforallYandexBotDisallow:/*sid=#ExceptthemainindexrobotUser-agent:*#不适用于YandexBotDisallow:/cgi-bin根据标准,您应该在每个User-agent指令之前插入一个空行。#字符指定注释。此字符之后的所有内容,直到第一个换行符,都将被忽略。robots.txtDisallow和Allow指令Disallow指令,使用该指令禁止对站点部分或单个页面进行索引。示例:包含机密数据的页面。包含站点搜索结果的页面。网站流量统计。重复的页面。各种日志。数据库服务页面。以下是Disallow指令的示例:User-agent:YandexDisallow:/#禁止抓取整个网站User-agent:YandexDisallow:/catalogue#禁止抓取以/catalogue开头的页面。用户代理:YandexDisallow:/page?#禁止抓取包含参数robots.txt的URL的页面Allow指令该指令允许对站点部分或单个页面进行索引。下面是一个示例:User-agent:YandexAllow:/cgi-binDisallow:/#禁止索引任何页面,除了那些以'/cgi-bin'开头的页面User-agent:YandexAllow:/file.xml#Allowindexingoffile.xml文件robots.txt复合指令的相应用户代理块中的Allow和Disallow指令按URL前缀长度(从最短到最长)排序并按该顺序应用。如果多个指令与特定网站页面匹配,则机器人将选择排序列表中的最后一个指令。这样,robots.txt文件中的指令顺序不会影响机器人使用它们的方式。#Robots.txt文件示例:User-agent:YandexAllow:/Allow:/catalog/autoDisallow:/catalogUser-agent:YandexAllow:/Disallow:/catalogAllow:/catalog/auto#禁止索引以'/catalog'开头的页面#但是您可以索引以“/catalog/auto”开头的页面地址。总结以上是Yandex爬虫对robots.txt的规则。您可以通过指定配置允许或禁止Yandex爬虫爬取或禁止爬取页面。参考DisallowandAllowdirectivesTheUser-agentdirectiveUsingrobots.txt
