【K哥爬虫法科普】百度，360八年的恩怨仇恨，机器人协议之战终于落下帷幕

时间：2023-03-26 12:41:15 Python

我国还没有出台专门针对网络爬虫技术的法律法规，但在司法实践中，相关判决司空见惯，K哥特意开设了“K哥的爬虫法”栏目。本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知道如何合法、合规地使用爬虫技术，警钟长鸣，做一个遵纪守法的人，一个守法的人，有原则的技术员。2012年11月1日，在工业和信息化部的指导下，中国互联网协会牵头，组织了12家互联网企业在北京签约。：百度、即时搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、一搜、一查无限、中搜等公约第七条第一款规定：遵循国际通行的行业惯例，商业规则，遵守机器人协议（robotsagreement）。第八条规定：互联网所有者在设置机器人协议时应当遵循公平、公开、促进信息自由流动的原则，以业界公认的合理理由限制搜索引擎抓取，不得利用机器人协议为不从事不正当竞争，积极营造鼓励创新、公平公正的良性竞争环境。案例介绍一审受理：2013年1月28日，二审终审：2020年7月3日，审期八年！上诉人：北京百度网通科技有限公司（简称百度网通）百度在线网络技术（北京）有限公司（简称百度在线）被上诉人：北京奇虎科技有限公司（简称奇虎、360）百度网通和百度在线表示，他们的相关网站都通过robots协议设置了访问限制，他们的robots协议采用“白名单”制度，即只有明确列出的搜索引擎的网络robotsdocument可以抓取百度下相关网站的内容，其他未列出的搜索引擎无法抓取。2012年8月16日，360搜索引擎上线，但百度网通和百度在线公司相关网站的机器人协议均未将360搜索引擎列入“白名单”。百度认为，360搜索违反行业认可的机器人协议，未经百度公司许可，抓取百度知乎、百度百科、百度贴吧等网站的内容，已构成不正当竞争。向奇虎索赔1亿元。据百度称，奇虎利用360搜索引擎，将网友的浏览数据和信息强行抓取到搜索服务器，完全无视robots协议。2012年底，百度工程师通过了一项名为“中元节捉鬼”的测试，证明360浏览器未经允许将“孤岛网页”等隐私内容上传到360搜索。360认为360对这些内容页面的搜索索引不涉嫌侵犯百度权益。事实上，它为百度带来了大量的用户和流量。百度应该感谢360。在本案中，百度指控奇虎360搜索存在以下不正当竞争行为：无视百度设定的robots协议，擅自抓取、复制百度网站相关页面，生成网页快照副本并存储它在奇虎本身的服务器中；在得知百度公司拒绝抓取百度网站内容后，仍继续抓取、复制百度网站内容，并生成网页快照副本保存在奇虎公司自己的服务器中；将网站搜索结果页面中来自百度网站的链接标题，直接提供给网络用户，并将“网页快照”复制并保存在自己的服务器上，上述行为构成不正当竞争。奇虎也认为，百度网通与百度在线存在不正当竞争。奇虎公司提交的（2013）经方园内经字第00364号公证书、（2013）经方园内经字第11476号公证书和（2015）经方园内经字第00228号公证书显示，自2012年8月以来，百度网通和百度在线已经被该网站的机器人协议排除了360搜索引擎。百度网通和百度在线公司承认上述事实，但认为机器人协议是国际通行的行业惯例和商业道德，允许和/或限制所有和/或特定搜索引擎是机器人协议的应有含义抓取百度机器人协议的“白名单”制度只允许特定搜索引擎抓取，其他所有搜索引擎均不允许抓取，不存在不正当竞争。奇虎公司提交的（2013）经方园内经字第05960号公证证明显示，使用360搜索引擎在百度上搜索相关网站后，点击访问时，访问被拦截，跳转至百度。搜索引擎网站的现象。奇虎认为，百度采取的相关技术措施将导致网民在使用360搜索引擎时的使用体验下降。百度网通和百度在线承认上述事实，但认为这是对奇虎不遵守百度机器人协议的自救措施。法院认为，百度网通、百度在线通过设置robots协议来限制360搜索引擎抓取其相关网页，与robots协议的初衷背道而驰。robots协议的初衷是为了引导搜索引擎的网络机器人更有效地为网络用户抓取有用的信息，从而更好地促进信息共享，而百度网通和百度在线的动作会让网络用户通过360搜索引擎无法获得完整的搜索结果，人为设置了信息流通的障碍。需要强调的是，360搜索引擎是一个通用搜索引擎，通用搜索引擎的网络机器人进入一个对公众开放的网站抓取信息通常不会损害网站的利益，反而有利于它的宣传和推广。事实上，目前绝大多数网站都对通用搜索引擎开放和欢迎，因为如果它们被搜索到，就意味着更多的页面浏览量，从而意味着更多的潜在用户。也正是因为这个原因，绝大部分网站并没有使用robots协议来禁止一般的搜索引擎抓取，而是希望能够更快的被搜索出来，并显示在搜索结果的最前面。竞价排名等商业模式的出现。但是，百度网通和百度在线限制360搜索引擎的抓取，同时允许国内外主流搜索引擎抓取其网页内容。他们的行为显然违背了机器人协议的初衷。从目前我国互联网搜索行业的发展现状来看，百度搜索引擎在市场份额上占据绝对优势，360搜索占据的市场份额相对较小。在这种情况下，百度网通和百度在线通过设置robots协议来限制360搜索引擎抓取其相关网站的内容，这将导致网络用户在使用360搜索引擎时无法及时获取信息。不仅降低了360搜索的用户满意度，损害了奇虎的合法权益，也在客观上增强了百度搜索引擎的市场支配地位。不难想象，如果国内各大网站都通过设置robots协议来限制对某个搜索引擎的抓取，那么这个搜索引擎肯定无法在市场上站稳脚跟。事实上，包括InternetEngineeringTaskForce在内的一些重要国际组织之所以拒绝采用robots协议作为行业标准，就是考虑到少数行业巨头可能会利用robots协议本身的漏洞，利用它作为垄断工具。因此，百度网通和百度在线通过设置robots协议来限制360搜索引擎抓取的动机很难说得过去。百度网通和百度在线也称，设置机器人协议是对奇虎侵权行为的自救措施。对此，如果网站所有者认为搜索引擎的抓取侵犯了特定的民事权利，则百度网通和百度在线的主张不能成立。法院认为，百度在线公司、百度网通公司以区分互联网搜索引擎经营者的方式，限制奇虎公司的360搜索引擎抓取其相关网站的网页内容，没有合理、正当的理由，影响通用搜索引擎的正常运行，损害奇虎的合法权益和相关消费者的利益，妨碍正常的互联网竞争秩序，违反公平竞争原则，违反诚实信用和公认原则商业伦理。无理、不制止不足以维护公平竞争秩序，构成反不正当竞争法第二条所称不正当竞争行为。根据第2668号判决书：奇虎搜索引擎直接将百度相关网页的链接替换为该网页的网页快照链接，明显超出了使用网页快照的合理范围。百度网站的搜索结果直接支持了以网页快照方式向网络用户提供不当行为的主张。奇虎公司赔偿百度经济损失50万元及合理费用20万元。判决：百度网通、百度在线立即停止涉案不正当竞争行为；判决生效后十日内，百度网讯、百度在线共同赔偿奇虎经济损失20万元；BaiduNetx、BaiduOnline自判决生效之日起30日内在三个网站（www.360.cn、www.sina.com、www.sohu.com）首页显着位置发表声明连续10日，就其涉及本案的不正当竞争行为，解除了奇虎公司的影响；二审案件受理费4300元，由百度网通、百度在线公司承担；驳回奇虎公司的其他诉讼请求。判决书https://wenshu.court.gov.cn/w...案例分析robots协议也叫爬虫协议、爬虫规则等，意思是网站可以建立一个robots.txt文件告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，搜索引擎通过读取robots.txt文件来识别是否允许抓取该页面。但是，此机器人协议不是防火墙，没有强制执行权。搜索引擎可以完全忽略robots.txt文件来抓取网页快照。如果你想单独定义搜索引擎机器人在访问子目录时的行为，你可以将你的自定义设置合并到根目录下的robots.txt中，或者使用机器人元数据（Metadata，也称为元数据）。机器人协议不是一个规范，而是一个约定，因此不能保证网站的隐私。例如，产品上挂一个“非卖品、易碎品、请勿触摸”，是告诉顾客不要触摸该产品，但不能阻止顾客拿起来看。行为既不损害也不违法，所以俗称“君子协定”，不具有法律效力。robots协议的初衷并不是为了限制搜索引擎的web机器人抓取信息，阻碍信息在互联网上的流通，而是让搜索引擎的web机器人能够通过良好的-用心引导，更好地促进信息共享。针对本案，根据《反不正当竞争法》第二条第一款、第二款规定：“经营者在市场交易中，应当遵循自愿、平等、公平、诚实信用和公认的商业道德原则。.本法所称不正当竞争，是指经营者违反本法规定，损害其他经营者合法权益，扰乱社会经济秩序的行为。反不正当竞争法明确规定，足以损害奇虎合法权益，扰乱正常市场经营秩序，违反公平竞争原则，违反诚实信用原则和公认的商业道德的，可以认定为《反不正当竞争法》第二条规定的不正当竞争行为。机器人协议效力的认定，从适用范围上大致分为两类：一是适用本案在搜索引擎范围内，当robots协议应用于搜索引擎领域时，应该abide本着开放、平等、写作和分享的互联网精神，在设置限制时应有业界公认的合理合法理由，否则robots协议将无法生效；另一种适用于非搜索引擎范围，此时《互联网搜索引擎服务自律公约》并不适用于整个互联网行业，常规的爬虫行为在法律上不属于违法行为或禁止行为。如今，在中国国内的互联网行业，正规的大型企业也将机器人协议作为行业标准。在中国使用机器人协议最典型的案例是淘宝拒绝百度搜索（2008年9月8日），京东商城拒绝一淘网搜索（2011年10月25日），相关的司法案例也很常见：百度诉百度。360案、腾讯诉字节跳动案、大众点评诉百度案等。但大多数中小网站都需要依赖搜索引擎来增加流量，所以通常不排除搜索引擎，机器人协议几乎没有使用过。爬虫工程师还需要注意的一点是，根据目前的实践，未被机器人协议排除的数据是互联网上的公共数据，任何人都有权访问和收集。因此，在遵守robots协议的前提下公开爬取数据，原则上不会侵犯信息提供者的权益，也不构成不正当竞争。反之，如果您违反机器人协议，强行抓取他人数据，则可能被视为违反诚信和商业道德，构成不正当竞争。

上一篇：LeetCode最接近的三个数之和

下一篇：为什么Python在18年前就引入了布尔类型？与C、C++和Java有何不同？

【K哥爬虫法科普】百度，360八年的恩怨仇恨，机器人协议之战终于落下帷幕相关文章