当前位置: 首页 > 科技观察

爬虫玩的好,能不能吃个够?这3条底线千万不能碰!_0

时间:2023-03-18 12:52:32 科技观察

数据爬取技术一直是数据公司获取数据的高效途径之一,但从严格意义上讲,爬取行为本身并不完全合法合规。根据我国现行的法律法规和司法判例,爬虫技术可能会违反以下维度的法律要求(仅列出相对重点的法律维度)。一、反不正当竞争法的维度未经被爬取方授权,爬取数据可能违反机器人协议。Robots协议是技术社区为了解决爬取方与被爬取方之间通过计算机程序进行通信,完成爬取意愿的一种机制。2012年11月1日,12家公司联合发起《互联网搜索引擎服务自律公约》,公约要求所有签署方遵守机器人协议。在司法实践中,即使爬虫不属于上述12家公司的范围,Robots协议也被认定为互联网行业搜索领域公认的商业道德:北京市第一中级人民法院在同业竞争案中,业界公认的Robots协议被认定为互联网行业搜索领域公认的商业道德规范。法院在判决书中指出:被告在推出搜索引擎时,其网站还公布了Robots协议的内容和设置方法,表明包括被告在内的整个互联网行业均认可并遵守Robots协议。它应该被认为是行业的普遍规则,应该被认为是搜索引擎行业公认的商业道德,应该被遵守。因此,爬虫违反Robots协议的行为可视为违反《反不正当竞争法》第二条,即违反诚信原则和商业道德。虽然在互联网上披露的信息很难构成商业秘密,但互联网上的一些信息通过技术手段只能被特定用户访问,因此互联网上的信息仍可能具有商业秘密所要求的保密性和安全性.保密性,构成商业秘密的可能性。如果爬虫控制者在抓取信息过程中故意规避网站运营者设置的保护措施,接触、保存甚至泄露普通用户原本无法访问的信息,且该等信息构成商业秘密,则爬虫控制者的此类行为可能构成侵权泄露他人的商业秘密,可能违反《反不正当竞争法》第九条。另外,由于爬虫可能会干扰被爬虫方的网络系统等,此类行为可能违反《反不正当竞争法》第12条。2、版权维度无论是互联网上的文章、图片、用户评论,还是网站本身的数据库,如果是原创的,都可能构成受版权法保护的作品。获取和使用此类信息可能构成对著作权的侵犯,尤其是复制权和网络信息传播权。由于抓取数据的行为本质上是对数据的复制,此类行为可能会侵犯著作权人的复制权。同时,在数据提取和使用行为方面,如果爬虫控制者抓取信息并在自己的网站上公开传播抓取的信息,可能进一步侵犯信息网络传播权。例如,马云等人因著作权侵权纠纷起诉某网络科技公司。案情被告是一家网络技术公司,利用类似于搜索引擎的计算机爬虫技术,收集法语词条和搜索译文,使用了原告享有版权的《当代法汉科技词典》中的大量内容,未支付任何费用。相应的报酬。互联网科技公司以侵犯版权为由起诉法院。判决结果显示,根据法律规定,除合理使用外,使用他人作品应当经著作权人同意,并支付相应的报酬。被告声称其通过爬虫技术收集词条和中文释义。该技术是被告收集并形成其在线词典词库的一种手段,而不是在使用《法语助手》时直接通过搜索链接指向其他目标网站。被告应对其收集、使用的词汇及汉语解释的合法性进行审查的更高的注意义务。因此,被告制作的法语翻译软件内容部分抄袭了原告《当代法汉科技词典》的翻译内容,侵犯了原告等人的著作权,应当承担停止侵权、赔礼道歉的民事责任,并依法赔偿损失。3.《刑法》和《网络安全法》维度从技术角度来说,爬虫可能会对目标网站造成过载,造成网站无法访问甚至瘫痪等不良后果。爬虫可能在《网络安全法》方面违反了网络运行安全的规定。但如果你也涉及非法侵入,则可能违反《刑法》第285、286条的规定。例如,在某案中,王某采用远程登录的方式,通过攻击命令侵入目标公司的计算机信息系统,导出系统中公司员工的邮箱和通讯录,然后修改相应的密码,从而可以随意进入目标公司的计算机信息系统。邮箱,最终以非法获取计算机信息系统数据罪被判刑。从爬取的内容来看,如果爬取的内容是个人信息,则可能违反《网络安全法》关于收集个人信息合规性的要求,甚至可能触犯《刑法》的侵犯公民个人信息罪。总结综上所述,数据抓取行为不仅容易引起监管部门的注意,而且容易受到竞争对手的诉讼。建议企业在进行数据抓取行为时注意以下几点。尽量避免爬取构成直接竞争的企业平台数据,避免竞争对手基于《反不正当竞争法》提起诉讼的风险。尽量爬取清晰公开的数据,遵守Robots协议等网站明确公开的协议,避免爬取平台禁止的数据。根据《数据安全管理办法(征求意见稿)》第16条的要求,数据爬取收集的流量不得超过网站日均流量的三分之一,以免造成目标网站崩溃,无法正常运行。对于已明确采取技术手段阻止爬虫访问的目标网站,本公司不得侵入或破坏其保护措施。如果目标网站明确发布了停止数据爬取的相关通知,则应暂停数据爬取行为,并及时采取应对措施。本文节选自《数据合规:入门、实战与进阶》(ISBN:978-7-111-70536-9),经出版社授权。