yandexrobotstxt

时间：2023-03-25 20:21:01 Python

robots.txt是一个包含网站索引参数的文本文件，供搜索引擎机器人使用。Yandex支持具有高级功能的RobotsExclusion协议。在抓取网站时，Yandex机器人会加载robots.txt文件。如果对文件的最新请求显示某个网站页面或部分被阻止，机器人将不会为它们编制索引。Yandexrobots.txt文件要求Yandexrobots可以正确处理robots.txt，但必须满足以下要求：文件大小不得超过500KB。它是一个名为“robots”的TXT文件，robots.txt。该文件位于网站的根目录中。该文件可供机器人使用：托管网站的服务器以200OK的HTTP代码响应。检查服务器的响应。如果文件不符合要求，则该站点被认为是开放索引的，即Yandex搜索引擎可以自由访问该页面的内容。Yandex支持从一个站点上的robots.txt文件重定向到另一个站点上的文件。在这种情况下，将考虑目标文件中的指令。这种重定向在移动站点时很有用。Yandex访问robots.txt的一些规则在robots.txt文件中，机器人会检查以User-agent:开头的记录，并查找字符Yandex（大小写不重要）或*。如果检测到User-agent:Yandex字符串，则忽略User-agent:*字符串。如果找不到User-agent:Yandex和User-agent:*字符串，则认为该机器人具有无限访问权限。您可以为Yandex机器人输入单独的命令。例如，下面的一些例子：User-agent:YandexBot#usedforindexcrawlersDisallow:/*id=User-agent:Yandex#willworkforallYandexBotDisallow:/*sid=#ExceptthemainindexrobotUser-agent:*#不适用于YandexBotDisallow:/cgi-bin根据标准，您应该在每个User-agent指令之前插入一个空行。#字符指定注释。此字符之后的所有内容，直到第一个换行符，都将被忽略。robots.txtDisallow和Allow指令Disallow指令，使用该指令禁止对站点部分或单个页面进行索引。示例：包含机密数据的页面。包含站点搜索结果的页面。网站流量统计。重复的页面。各种日志。数据库服务页面。以下是Disallow指令的示例：User-agent:YandexDisallow:/#禁止抓取整个网站User-agent:YandexDisallow:/catalogue#禁止抓取以/catalogue开头的页面。用户代理：YandexDisallow：/page?#禁止抓取包含参数robots.txt的URL的页面Allow指令该指令允许对站点部分或单个页面进行索引。下面是一个示例：User-agent:YandexAllow:/cgi-binDisallow:/#禁止索引任何页面，除了那些以'/cgi-bin'开头的页面User-agent:YandexAllow:/file.xml#Allowindexingoffile.xml文件robots.txt复合指令的相应用户代理块中的Allow和Disallow指令按URL前缀长度（从最短到最长）排序并按该顺序应用。如果多个指令与特定网站页面匹配，则机器人将选择排序列表中的最后一个指令。这样，robots.txt文件中的指令顺序不会影响机器人使用它们的方式。#Robots.txt文件示例：User-agent:YandexAllow:/Allow:/catalog/autoDisallow:/catalogUser-agent:YandexAllow:/Disallow:/catalogAllow:/catalog/auto#禁止索引以'/catalog'开头的页面#但是您可以索引以“/catalog/auto”开头的页面地址。总结以上是Yandex爬虫对robots.txt的规则。您可以通过指定配置允许或禁止Yandex爬虫爬取或禁止爬取页面。参考DisallowandAllowdirectivesTheUser-agentdirectiveUsingrobots.txt

上一篇：Python自动提取电影

下一篇：使用Python抓取网页你需要了解和掌握的基本知识

yandexrobotstxt相关文章