目前,我国还没有出台专门针对网络爬虫技术的法律规定,但在司法实践中,相关判决屡见不鲜。K哥专门开设了一个专栏“K哥爬虫普及法”。本栏目分析真实案例,旨在提高广大爬虫工程师的法律意识,合法合规使用爬虫技术,警钟长鸣,做一个守法护法的人,和有原则的技术人员。案例介绍2018年1月至7月,奎星通过SQL注入漏洞侵入计算机信息系统并编写爬虫脚本,获取计算机系统存储的大量数据,其中个人信息约1500万条。于跳,应将其获取的个人信息通过QQ卖给“范思哲”、“同花顺”、“FF”、“糖果”等人,获利54万余元。公诉机关认为,顾某兴违反国家规定,侵入计算机信息系统,获取计算机系统存储的数据。情况特别严重。以获取计算机信息系统数据罪追究刑事责任。于某兴对被告人的指控没有异议,但辩称起诉书中的罪名数量有异议,而且他仅使用了20万多条信息;他对所谓的入侵方式持异议,SQL技术不是入侵技术,爬虫技术只能从网站页面中获取信息,无法侵入系统或获取数据。被告人邢某兴辩护人供述主要辩护意见:1、被告人利用SQL注入漏洞获取计算机信息系统数据是一种常见的黑客技术,被告人获取的信息大部分为网站公开信息。作为采集手段,SQL方式和爬虫脚本的使用是合法的;2.起诉书中涉及超过1500万条个人信息的指控存在异议。获取的计算机信息系统数据中存在部分无效数据,涉案信息重复,违法所得数额与涉案信息量不对应的;3、不服被告人从中获利54万元,被告人通过爬虫脚本获取信息销售所得利益,应属合法利益,应予扣除;4.被告人自愿供述犯罪事实,认罪悔罪态度良好,愿意为较轻的罪行缴纳罚金。建议对他进行缓刑。法院认为,被告人邢某兴违反国家规定,侵入计算机信息系统,获取计算机系统存储的数据。对于被告人及其辩护人提出的起诉书指控个人信息超过1500万条,部分计算机信息系统数据为无效数据,存在重复计算问题的辩护意见,本院认为,公诉机关机关对被告获取的信息进行重组后,合理推断超过1500万条个人信息能够识别特定自然人身份或者反映特定自然人的活动情况。因此,本院不予采纳本答辩及答辩意见。至于被告人及其辩护人辩称,利用SQL注入漏洞获取计算机信息系统数据仅是一种收集手段,使用爬虫脚本合法,获取的信息大部分为网站公开信息,本院认为,被告人利用SQL注入漏洞,编写爬虫脚本侵入计算机信息系统,获取计算机系统中存储的大量数据,涉及个人信息1500万余条,不是网站页面信息。辩护人及辩护意见本院不予采纳。针对被告人提出的不服被告人从中获利54万元的辩护意见,被告人通过爬虫脚本获取的合法信息收入应当予以扣除。本院认为,被告人通过编写爬虫脚本,非法侵入计算机信息系统。获取并出售存储在计算机系统中的信息属于违法所得,应列为违法所得。因此,本院不予采纳该辩护意见。对于辩护人提出的被告人自愿供述犯罪事实、认罪悔罪态度良好的辩护意见,本院认为,被告人利用SQL注入漏洞编写爬虫脚本的论点不构成侵权。计算机系统,其获取的只是网站页面信息,不属于对自己犯罪的如实供述,本院不予采纳该辩护意见。判决被告人奎某兴犯非法获取计算机信息系统数据罪,判处有期徒刑五年,并处罚金人民币2万元。被告人于某兴所取得的违法所得54万元已依法追缴或者责令退还。判决书全文:https://wenshu.court.gov.cn/w...反思提要法院称,兴兴未经网站授权,利用特定网站漏洞,利用SQL注入漏洞并编写爬虫脚本入侵计算机信息系统,获取存储在计算机系统中的大量数据,涉及个人信息超过1500万条,且该行为的违法性不以网站页面信息为准。我们先来了解一下SQL注入和网络爬虫的基本原理:SQL注入:当我们访问动态网页时,Web服务器会向数据访问层发起SQL查询请求,如果授权验证通过,SQL语句就会被执行。这种在网站内部直接发送的SQL请求一般没有危险,但实际情况是很多时候需要根据用户输入的数据动态构造SQL语句。对构造的SQL语句中使用的参数进行审核,导致传入的“数据”被拼接到SQL语句中作为SQL语句的一部分执行,可能导致数据库损坏(detached、deleted,甚至整个数据库)服务器权限陷阱)。网络爬虫:网络爬虫,又称网络蜘蛛或网络机器人,是一种按照一定规则自动浏览和检索网页信息的程序或脚本。网络爬虫可以自动请求网页并抓取所需数据。处理捕获的数据以提取有价值的信息。高级用户可以“所见即所得”,也就是说只要是看得见的内容,就可以抓取。浏览的内容。因此,侵入计算机信息系统不是爬虫能做到的。数据库层面的渗透或攻击应该通过SQL注入来实现,法院将编写爬虫脚本列为侵入计算机信息系统的方式之一,因为非法获取计算机信息系统数据罪与侵犯公民个人信息罪是同犯的法律法规,是指一种犯罪行为同时违反若干具有包容关系的具体刑法规定,且只有其中的一种。法律适用于定罪和量刑。健康)状况。无论是余某兴辩护中提到的利用爬虫技术收集某些网站发布的个人信息,还是利用SQL注入技术渗透到数据库中,然后利用爬虫批量收集个人信息,这都是违法的.法律的“红线”,理论上,爬虫作为一种网络信息搜索技术,在技术上是中立的,并未被我国现行法律明确禁止。但在司法实践中,“技术中立原则”的适用是有效的。边界线,如果利用技术的人利用技术危害社会,实施犯罪行为,根据“技术中立原则”,不能免除刑事责任。涉及公民个人信息的,特别法优先于普通法侵犯公民个人信息罪的原则,邢星的行为,适用于侵犯公民个人信息罪,我们必须谨慎对待公民的个人信息和数据!需要注意的是,部分网站会采取反爬虫措施,包括IP封禁、账号封禁、JS参数加密、代码混淆、浏览器指纹识别、TLS指纹识别、验证等,以增加爬虫程序资源成本,甚至企业积极开发反爬虫技术限制网络爬虫的访问权限,绕过网站反爬虫措施获取数据是违背权利人意愿读取和收集数据,更容易被识别为“侵入”计算机信息系统,进而非法获取计算机系统数据罪定罪处罚。对“入侵”的理解:在以往的案件中,司法机关对计算机信息系统的“入侵”判断主要依据以下两条路径:一是未经用户身份的入侵,即通过窃取或破解密码进入系统;二是超权限访问入侵,即拥有合法的用户身份,却超出自身授权范围访问信息资源。信息披露不等同于数据披露。对于爬虫工程师来说,无需理清概念背后的区别和联系。只是在业务发展过程中需要树立风险防范意识。对于贸然爬取公开可见的信息,仍然会有一定的刑事处罚。风险,慎重辨别爬取数据类型,慎重处理含有公民个人信息、商业机密等信息,希望大家三思而后行。古语甚远。记住公司是老板的,自由是自己的。法律不可侵犯!
