据说互联网上超过50%的流量是由爬虫创造的。大家可能看到很多流行的数据都是爬虫创造出来的,可以说没有爬虫就没有互联网的繁荣。前天写了一篇《 只因写了一段爬虫,公司200多人被抓!》,讲的是一个程序员因为写爬虫被追究刑事责任。文章广为流传,评论中讨论最热的是:爬虫合法还是非法?这个话题涉及到我们很多程序员的日常工作,所以有必要和大家详细聊一聊。1、技术是无辜的?很多朋友给我留言:技术是无辜的。技术本身确实没有对错,但是使用技术的人是有对错的。如果公司或程序员知道使用其技术是非法的,那么公司或个人需要为此付出代价。今年国家出台《中华人民共和国网络安全法》后,很多以前处于灰色地带的业务无法开展。你没看到曾经很火的各种社会工作数据库网站现在大部分都消失了吗?因为新国安法强调,出售个人信息超过50条属于“情节严重”,需要追究法律责任。许多草根站长主动关闭了他们的网站;还有很多网站涉及版权信息,比如书籍、影视剧、课程等,后期将面临越来越严格的审查。这是目前的情况。2014年12月20日,人人影视字幕站在微博发文称,人人影视正式关闭,并表示可能继续为授权出版商提供翻译服务,也可能转型为讨论社区。2019年6月,无爱潮因版权问题关站整顿……随着中国经济不断向前发展,知识产权问题将越来越重要。非法爬虫现在是打架的重要一环,如果有程序员游走在灰色的边缘,尽快收手,不要因小利而犯法,以免得不偿失。技术是无辜的,但用错地方的成本也很高。2.爬行位置的人都处于危险之中。我在拖钩上搜索:爬虫工程师,相关招聘信息有217条,薪资在10-60k之间,可见市场对爬虫的需求量很大。前天文章发表后,很多程序员给我留言:我们领导安排我去公司内部爬取资料。这是犯罪吗?在互联网上爬取公共信息是否构成犯罪?我写了一段代码上传到Github上,有人用它来犯法吗?简单回答一下这些问题:在公司授权的情况下爬取公司内部信息当然不构成犯罪,但不知道公司为什么要用爬虫而不是接口?爬取网络公开信息不违法,但是开启大量爬虫导致对方服务器崩溃也是违法的,属于暴力破解的范畴。写一段代码上传到Github。有人使用你的代码做其他非法的事情。大部分都还好,但是如果你写的软件涉及到入侵、暴力破解、病毒等,就不好说了。有朋友认为,这件事情的责任在公司,而不在程序员。在日常工作中,项目的初步设计和最终启动需要经过公司法务部的审批。所有代码在提交之前必须经过其他程序员的审查和批准。这位朋友说的很对。按理说每个公司都应该在前面有法务和风控,在后面有产品设计和程序员开发。但是,如果一个公司想要利益,老板可以直接让这两个部门闭嘴,那程序员能不干吗?甚至很多公司都没有这两个部门,或者没有用。所以作为程序员,你也需要照顾好自己,不能做任何涉及入侵的程序,因为有一种东西叫:单位犯罪。单位犯罪是指公司、企业、事业单位、机关、团体为本单位谋取利益,由本单位的决策机构或者负责人实施的危害社会的行为,为此,法律规定,依法追究刑事责任。我国刑法原则上对单位犯罪采取双重处罚制度,即对单位犯罪,对单位判罚罚款,对直接负责的主管人员和其他直接责任人员依法追究刑事责任。3、什么样的爬虫是违法的?爬虫不能涉及个人隐私!如果爬虫程序采集公民的姓名、身份证号码、通讯联系方式、住址、账户密码、财产状况、行踪等个人信息,并将以非法方式使用,则必然构成违法非法获取公民个人信息的行为。也就是说你的爬虫爬取信息没有问题,但是不能涉及个人隐私问题。如果涉及其中,通过非法手段赚钱,那一定是违法行为。此外,爬虫还有三种情况可能触犯法律,情节严重甚至构成犯罪:爬虫程序规避网站运营商设置的反爬虫措施或破解服务器的反爬虫措施,非??法获取相关信息。情节严重的,可能构成“非法获取计算机信息系统数据罪”。如果爬虫程序干扰被访问网站或系统的正常运行,后果严重,将触犯刑法,构成“破坏计算机信息系统罪”。情节严重的,可能构成“侵犯公民个人信息罪”。现在网络上有很多付费课程,比如极客时间、Gitchat、MOOC、知识星球等,如果这些付费的内部资料通过非法爬取的方式出售牟利,是违法行为。之前遇到过一个网友,把各种知识星球的内容全部抓起来一起卖。我以为我发现了一个巨大的商机。殊不知这种行为其实是非常危险的,风险和收益显然是不对等的。.这两天看的时候,他的一个?被禁了,然后又转了一个小号继续搞。早晚要被封禁,实在是太不值得了。最可怜的是那些买他的服务的用户,因为他打广告的时候承诺永远,而且肯定不会永远。4、什么样的爬虫是合法的?(1)遵守Robots协议Robots协议又叫robots.txt(统一小写)是一个存放在网站根目录下的ASCII编码的文本文件,通常告诉网络搜索引擎Robots(也称webspiders),本网站哪些内容不应该被搜索引擎机器人获取,哪些内容可以被搜索引擎机器人获取。Robots协议就是告诉爬虫哪些信息可以爬,哪些信息不能爬。严格按照Robots协议爬取网站相关信息一般不会造成太大问题。(2)不能造成对方服务器瘫痪,但不代表只要爬虫遵守Robots协议就没有问题。还涉及两个因素。第一,大规模爬虫无法造成对方服务器瘫痪,相当于网络攻击。国家互联网信息办公室2019年5月28日发布的《数据安全管理办法(征求意见稿)》中,提出以行政法规的形式限制爬虫的使用:网络运营者采用自动化手段访问和收集网站数据,不得阻碍网站的正常运行;此类行为严重影响网站的运营。自动访问采集流量超过网站日均流量三分之一的,网站要求停止采集自动访问时,应当停止。(三)不得非法牟利。恶意利用爬虫技术抓取数据,获取不正当竞争优势,甚至谋取非法利益,都可能触犯法律。实践中,因非法使用爬虫技术抓取数据而引发的纠纷其实不少,其中大部分是以不正当竞争为由提起诉讼的。比如你把大众点评上所有的公开信息都抓过来,自己复制一个一模一样的网站,通过这个网站赚大钱,就会出现问题。一般情况下,爬虫都是为企业谋利,爬虫开发者的道德自持和企业经营者的良知是避免触及法律底线的根本原因。5、最后,最近看到了很多程序员出事的事件,东南亚程序员被打,多家大数据公司被查,等等。作为一名普通的程序员,希望大家多多关注此类事件,以此来提醒自己。谨慎进入现金贷、不合规P2P、博彩游戏、五黑产品等风险行业。如果公司安排入侵某网站数据,或同事/朋友邀请泄露公司信息,则需要提高警惕。有时一个小动作可能会引起问题。我们大部分公司和个人使用的爬虫是没有问题的。没有必要每个人都处于危险之中。只要不爬取个人信息,不利用爬虫非法牟利,不爬网站付费内容,基本上就没有问题。程序员是世界上最简单的一群人,也是一群高智商低情商的人。工作就是工作,但你也需要谨慎。请与法律边缘的事物保持距离。敬畏法律,遵纪守法,从我做起。
