9月6日下午,多位业内人士称,杭州知名大数据服务公司杭州摩西数据科技有限公司涉嫌被相关执法人员控制。其中一名姓周的核心高管被警方带走。上图来自pexels。以上是前几天科技圈流传的一则新闻。调查了另一家数据公司。玩得开心,XX能吃饱。”现场拍摄的知情人士指出,摩西科技作为一家数据服务公司,2017年曾在一篇文章《爬虫凶猛:爬支付宝、爬微信、盗现金贷》中指出数据”,并指出存在开发利用恶意爬虫的行为。目前魔蝎科技的官网和后台都打不开。当然,至于为什么要查魔蝎科技,等执法部门的调查结果就可以了,这里就不无缘无故的炒作了,今天想讲的是关于爬虫的合法性,希望通过一些案例来探讨一下:如何做一个爬虫不触碰红线的开发者,爬虫作为一种计算机技术,在技术上是中立的,爬虫技术从来没有被法律禁止过,爬虫的发展历史可以追溯到20年前。搜索引擎、聚合导航、数据分析、人工智能等服务都需要基于爬虫技术。但是,爬虫是获取数据的技术手段之一。由于一些数据的敏感性,如果你不能确定哪些数据可以被爬取,哪些会触及红线,你可能就是下一个新闻主角。爬虫的合法性如何定义,目前没有明文规定,但是看了很多文章、事件、分享、司法案例,总结出定义的三个要点:数据采集方式数据采集行为datausepurposedata获取方式用什么方式爬取数据,这是最需要注意的一点。一般来说,未公开的、未经授权的、敏感的数据,无论以何种方式获得,都是违法行为。因此,在收集此类敏感数据时,最好先查询相关法律法规,尤其是用户个人信息、其他商业平台的信息等,以找到合适的方式。个人数据收集和分析个人信息数据应该是今天所有互联网都会做的事情,但大部分个人数据是非公开的。想要获得,必须走合法途径。可以参考《网络安全法》第四十一条。收集的目的、方式和范围,并征得被收集人的同意……即必须事先告知收集的方式、范围和目的,征得用户授权或同意后方可收集以及使用过的,这是我们常见的各个网站与App的用户协议中关于信息收集的部分。相关负面案例:8月20日,澎湃新闻从绍兴市越城区公安局获悉,该局近日侦破了一起涉及大流量的劫持案。涉案公司北京睿智华盛科技有限公司涉嫌非法盗用用户。个人信息30亿条,涉及百度、腾讯、阿里、京东等全国96家互联网公司的产品。目前,警方已逮捕这家公司及其关联公司的6名犯罪嫌疑人。......北京睿智华盛公司及其关联公司在与正规运营商合作时,会加入一些非法软件进行流量清洗,获取用户cookies。摘自澎湃新闻:《新三板上市公司被盗窃个人信息30亿条,非法获利逾千万元》[1]。从合法的公开渠道公开数据,不违背个人信息主体的意愿,没有错。但是,如果你通过破解、入侵等“黑客”方式获取数据,那么就有相关法律等着你:《专门用于入侵和非法控制计算机信息系统的程序、工具》:(1)具有规避功能突破计算机信息系统安全保护措施,擅自或者越权获取计算机信息系统数据的;...违反机器人协议。但是Robots协议作为一个行业惯例,如果你遵守的话,会给你带来法律上的支持。因为Robots协议具有指导意义,如果你标明Disallow,说明平台显然需要对页面数据进行保护,抓取前要慎重考虑。使用技术手段进行数据采集的行为应予以约束。一些可能对服务器和业务造成干扰甚至损害的行为,应该进行充分衡量。毕竟不是每个公司都是BAT级别的。并发压力大的技术往往侧重于优化,爬虫开发也是如此。他们千方百计提高并发数和请求效率。但是,如果高并发带来的几乎是DDOS请求,如果给对方服务器造成压力,就会影响对方的正常业务,那就要提高警惕了。造成严重后果的,后果见:《刑法》第286条还规定,违反国家规定,删除、修改、增加或者干扰计算机信息系统功能,致使计算机信息系统不能运行的。通常情况下,后果严重的,构成犯罪。所以在爬取的时候,即使没有反爬限制,也不要贸然开启高并发,权衡对方服务器的实力。影响正常业务除了高并发请求外,还有一些影响业务的情况,比如抢单,会影响正常的用户体验。数据使用的目的数据使用的目的也是一个关键点。即使通过合法渠道收集数据,如果没有正确使用数据,也会存在违法行为。一种超出协议的使用情况是公开收集的数据,但它不遵循先前公布的使用目的。例如,用户协议声明仅用于分析用户行为,帮助提升产品体验,结果变成了用户画像数据的买卖。在另一种情况下,您可能被允许下载或引用具有知识产权和著作权的作品,但明确标明了使用范围。例如,不可复制,不可用于商业活动等,不可被窃取。这些都是受法律保护的,所以使用时要小心。其他情况不一一列举。出售个人信息不得出售个人信息,这是法律明确禁止的。参见:根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条,“情节严重”的解释:(一)非法取得、出售或者提供行踪信息、通讯内容、信用信息、财产信息50条以上的。(二)非法获取、出售、提供公民的住宿信息、通讯记录、健康生理信息、交易信息等可能影响人身和财产安全的个人信息。(三)非法获取、出售、提供第三、四项以外的公民个人信息5000条以上,构成“侵犯公民个人信息罪”所要求的“情节严重”的。此外,未经被收集人同意,即使将依法收集的公民个人信息提供给他人,也属于刑法第253条之一规定的“提供公民个人信息”,可能构成犯罪。不正当商业行为如果将竞争公司的数据用于本公司的商业目的,可能构成不正当商业竞争或侵犯知识产权保护。这种情况在目前涉及爬虫的商业诉讼案件中比较常见。在两年前一个比较知名的案例中,“车来来”APP抓取了竞品“Kumike”的公交数据,并展示在自家产品上。上图:公交车虽然是一种公共交通工具,但其实时运行路线、运行时间等信息只是客观事实。背景资料经收集后,具有实用性,能够为权利人带来实际或潜在、当前或未来的经济利益,已具有无形财产的属性。远光公司利用网络爬虫技术从龟尾公司的“久米克”软件中免费获取大量实时公交信息数据,实际上是一种“不劳而获”、“吃人发胖”的行为,构成不正当竞争。摘自《深圳市中级人民法院(2017)粤03民初822号民事判决书》。《爬虫法》好消息是,相关措施已经在路上。5月28日午夜,国家互联网信息办公室发布?征求意见稿。我也查了这个草案,里面有一些关于数据获取、存储、传输、使用等方面的规定,包括一些爬虫行为的规定(还在征集阶段,以后可能会有变化)。例如,第二章第十六条:网络运营者采用自动化手段访问、收集网站数据,不得妨碍网站的正常运行;此类行为严重影响网站运行,如自动访问采集流量超过网站日均流量的三分之一,网站要求停止自动访问采集时,应当停止。第三章第二十七条网络运营者向他人提供个人信息前,应当评估可能存在的安全风险,并取得个人信息主体的同意。下列情况除外:(1)从合法、公开的渠道收集,且不明显违背个人信息主体的意愿。(2)个人信息主体自愿公开的。(3)匿名化后。(四)执法机关依法履行职责所必需的。(5)为维护国家安全、社会公共利益和个人信息主体安全所必需。摘自《数据安全管理办法(征求意见稿)》[2]结论特此声明:以上所有内容仅为个人分析,可能存在错误,不能作为任何依据。以具体法律法规为准。希望能给包括其他开发者在内的所有爬虫开发者一些启示:技术虽然是中性的,但使用有善有恶,必须合理合规、严格谨慎地使用技术。参考链接:新三板挂牌公司涉窃取个人信息30亿条https://www.thepaper.cn/newsDetail_forward_2362227数据安全管理办法(征求意见稿)http://www.moj.gov.cn/新闻/内容/2019-05/28/zlk_235861.html
