在大数据时代,除了直接从用户那里收集数据外,另一个主要的数据来源是利用网络爬虫收集公共信息。爬行动物在多大程度上被使用?据业内人士介绍,互联网上超过50%甚至更高的流量实际上是由爬虫贡献的。对于一些热门网页,来自爬虫的访问量甚至可能占该页面总访问量的90%以上。 从技术角度来说,爬虫就是通过程序模拟人类上网或浏览网页或APP的行为,然后抓取爬虫作者所需要的信息的过程。随着数据产业的不断发展和数据价值的不断提升,对数据的竞争也越来越激烈。“爬虫”与“反爬虫”已经成为永无休止的“攻防对抗”。部分爬虫违背网站意愿,对网站进行非授权访问,获取网站大量公开或非公开数据,引发诸多法律纠纷。 10月23日,杭州长三角大数据研究院、上海市杨浦区人民检察院、上海市企业法律咨询协会、浙江省企业法律咨询协会、《财经》企业治理研究院联合发起“长三角数据合规数据爬虫法律规制论坛暨研讨会”,邀请多位重量级法学学者、法官、检察官、互联网从业人员“爬虫的刑事合规”等视角进行了探讨。01爬虫无处不在 》爬虫的使用场景非常广泛,包括合规和不合规场景。例如,爬取电商网站的评估数据进行市场调研;数字内容可以使用爬虫来爬取互联网相应内容;抓取裁判文书网数据,优化上线“付费版数据库”;企查查、天眼查也在利用爬虫技术实现政府公共数据的商业化利用。”欧莱雅中国数字化负责人刘宇介绍。 刘宇讲解了爬虫的基本原理。通常,爬虫会定位网站上的所有URL链接,获取页面中的数据,然后对数据进行拆解和利用。不管是web端还是移动端,基本的爬虫都是基于这个原理。使用爬虫技术对“爬虫”和“被爬虫”双方都有风险,轻则网站崩溃,重则坐牢。 具体来说,对于那些小网站或者技术实力薄弱的网站,如果爬虫持续7X24小时访问,服务器可能无法承受突增的流量,导致网站崩溃。更麻烦的是,对于写爬虫的程序员来说,爬取不该爬取的数据,然后使用这些数据,可能是违法的。 刘宇说,在不同的场景下,对待爬虫的态度是完全不同的。例如,搜索引擎爬虫之所以流行,是因为搜索引擎可以增加爬取网站的曝光率;但大多数网站也基于服务器风险或各种商业原因不希望爬虫爬取数据。拒绝有两种类型,‘反爬’机制和‘反反爬’机制。网站可以制定相应的策略或技术手段来防止爬虫抓取数据。 网站常见的应对策略是放置Robots协议,该协议由荷兰工程师MartijnKoster于1994年编写,后来成为数据爬虫与被爬虫之间的通用通信机制。在中国互联网协会2012年发布的《中国互联网行业自律公约》中,将遵守Robots协议确定为“国际通行的行业管理和业务规则”。▲Robots协议是数据爬虫与被爬虫双方自愿的沟通机制 但刘宇表示,Robots协议更像是君子协定,只能起到通知作用,不能起到预防作用。爬虫技术、反爬虫技术、反爬虫技术一直在迭代。只要能被用户访问到的网站和APP,都有被爬取的可能。 糟糕的爬虫方式会造成社会和技术资源的浪费,这是来之不易的。小红书总法律顾问曾翔表示,部分爬虫会通过“模拟真人访问”或“通过协议破解”来爬取数据。“这些都是可耻的手段,被抓取的网站不得不采取攻防兼备的措施,造成企业资源的大量浪费。”曾翔表示,对于内容平台来说,遇到爬虫攻击对自己和自己来说都是极其容易的。侵犯用户享有的知识产权。通常爬行是有目的的。如果核心商业机密被爬取,可以直接用于其他地方,形成竞争优势。此外,在他看来,爬虫还涉及破坏互联网公共秩序。“爬取的数据能否得到有效利用,是否置于监管之下,数据流向何方,都是非常大的问号。”02爬虫民事责任判决 《技术是中立的,但技术应用永远不是中立的。》新浪集团诉讼部主任张哲表示,在讨论爬虫技术的原理时,更重要的是看爬虫技术是用来做什么的,其行为本身是否正当。 近日,北京市高级人民法院(下称“北京市高级人民法院”)对“今日头条诉微博不正当竞争案”作出二审判决。在本案中,微博被诉在机器人协议中设置黑名单,限制字节跳动抓取相关网页内容法院认为,微博是企业行使自主经营权范围内的合法行为,不构成不正当竞争,同时撤销一审判决。张哲表示,司法机关的评价Robots协议的本质是“一体两面”。2020年,北京市高级人民法院在对“360诉百度不正当竞争案”作出判决时,认为百度不应在没有合理合法理由的情况下以主题为区分限制搜索引擎抓取网站网页内容(太啰嗦,保持简单)。在“今日头条诉微博不正当竞争”一案中,法院确立了企业有权在自身经营范围内限制其他访问者的原则,只有在侵犯了公众利益和权利的情况下才可以。消费者受到侵害还能被认定为不当吗? 在华东政法大学法学院教授、数据法律研究中心主任高富平看来,爬虫与数据产业是连在一起的。所谓数据公司所说的数据智能、大数据分析,基本上都是抓取数据,然后进行挖掘和分析。现在普遍认为爬虫是一种中性技术,但更多的时候,用户希望实现“不劳而获”。 高福平认为,不谈数据合法生产者的控制权,就很难判断爬虫的合法性。国内外关于爬虫合法边界的讨论主要集中在数据爬取的手段和目的上。 从手段上来说,爬虫无视网站的访问控制,或者冒充合法访问者,都将被视为违法;如果是“实质性替代”,目的是非法的。 网站合法积累数据资源,网站制作端可以控制和使用,更重要的是,承认数据控制者可以基于商业目的开放数据,通过许可、交换、共享等方式让更多人可以使用数据。交易。”高富平补充道,“在合法的数据生产者掌握控制权的前提下,我们可以打击无视Robots协议的爬虫。 上海浦东法院知识产权法院徐洪涛法官认为,机器人协议和数据传输有两个问题需要考虑:一是如何把握“互联互通”和数据共享的程度;第二,当前互联网行业运营商采用的Robots协议策略是否会导致数据孤岛。互联互通的本质是保障数据的有序流动,而不是迫使互联网行业运营商将自身平台内的数据资源全面开放给竞争对手。在“互联互通”背景下,“秩序”与“流通”同等重要、缺一不可,需要排除打着“互联互通”幌子阻碍公平竞争、危害用户数据安全的行为。 爬取某新媒体公司微信公众号在平台数据案中,杭州互联网法院已经明确了自己的观点。网络平台设置了Robots协议,希望他们在比赛过程中依然能够遵守比赛规范,或者至少保持相互尊重、相互遵守的协议,这是秩序的基础。 以上案例,法院认为,允许第三方爬虫工具爬取公众号信息,会阻碍平台创建,扭曲大数据要素的市场竞争机制;从消费者利益角度出发,擅自抓取信息并展示未尊重信息发布主体意愿的;从公共利益的角度,被告抓取信息后没有深入挖掘、创新,没有更深层次的应用,未能提高社会的整体公共利益,抓取数据来源不正常,是 徐洪涛认为,数据是内容产业的核心竞争资源,内容平台收集、分析和处理的数据往往具有极高的经济价值。如果要求内容平台运营商分享自己的核心竞争力,无限开放,不仅违背了“互联互通”的精神,也不利于优质内容的不断变化和互联网行业的可持续发展。 Xu洪涛表示,非搜索引擎爬虫的合法性判断可以概括为四个要素:第一,是否尊重被爬网站预设的Robots协议;其次,是否破坏被爬网站的技术措施;第三,是否威胁到用户数据的安全;第四,衡量创造力和公共利益。 许洪涛指出,用户数据,包括身份数据和行为数据,不仅是运营商的竞争资源,还具有个人隐私属性,此类数据的收集更与社会公共利益相关。其在取数据时危害用户数据安全,其行为不合法。03爬虫涉及刑事合规 刑事合规,最初起源于美国,是指国家以刑法为工具,为促进企业合规管理而建立的一套监督、约束和激励机制。 2020年,在最高人民检察院推动下,深圳、浙江、江苏、上海等地基层检察机关将积极探索企业刑事合规工作。为鼓励更多企业开展合规重组,新的“刑事合规不起诉”刑事诉讼制度已在全国推开。它试图选择参与可能建立合规性的犯罪的公司。计划,然后采取措施不起诉该公司。 上海市人民检察院二分院三检察部副主任吴巨平表示,刑事合规主要是给涉案企业一个整改、重新开始的机会,是确保社会经济高质量发展。目前,很多企业关注的刑事合规,更多的是如何规避企业经营中的刑事风险。吴巨平认为,使用爬虫技术进行数据分析的企业应该关注如何落实刑事合规。 吴巨平表示,“除了木马病毒程序等技术本身不合法外,我们在判断爬虫技术相关行为是否构成犯罪时,首先要看作案者利用什么爬虫技术以及是否存在社会危害。再判断该行为是否属于侵入计算机信息系统或非法获取计算机信息系统数据,再看爬取的数据是否涉及企业数据或公民个人信息,将分别适用相关罪名。” 需要考虑爬取的数据的合法属性是财产还是只是数据。吴巨平说,这在司法实践中颇有争议。“比如,我们有一个以非法扣押的方式强制对方交出虚拟货币的案件,刑事认定为非法扣押罪,否定了虚拟货币的财产属性,民事判决返还虚拟货币。”property识别property属性。”她认为,数据是数字经济发展的重要生产要素,本质上应具有财产属性,但现行法律和司法实践并未完全跟上。 华东政法大学张勇教授对爬虫可能涉及的犯罪进行了分类:从可能被侵犯的权利角度,包括计算机系统安全、个人信息、著作权、国家秘密、商业秘密、市场比赛顺序等;从爬取方式来看,可能危害计算机信息系统安全,非法获取公民个人信息,非法获取商业秘密,破坏著作权技术保护措施;从抓取结果来看,存在不正当竞争、侵犯著作权、侵犯人格权等问题。》 《财经》E法在裁判文书网检索到54份与爬虫相关的刑事判决书,涉及多项罪名。其中,26起案件被认定为侵犯公民个人信息罪;10项非法获取计算机信息系统罪;5传播淫秽物品牟利罪;3破坏计算机信息系统罪;3份;侵犯知识产权罪3份;非法侵入计算机信息系统罪、开设赌场罪、盗窃罪、诈骗罪各1份。
