当前位置: 首页 > 后端技术 > Python

爬虫有风险,爬虫需谨慎

时间:2023-03-26 17:53:32 Python

CDA数据分析研究所,授权转载有人说,中国电商的蓬勃发展,离不开中国女性疯狂的剁手。但是,手太多了。连观音都要被斩成金星!所以很多妹子在逛街的时候,发现有一些可以比价的软件,可以帮助她们一键货比三家,久而久之可以省下不少钱!很多人可能会有疑问,难道剁手和爬虫有半毛钱关系?还别说,还真有,而且还不是一毛钱的事。因为用来比较各种电商平台同类产品价格的软件,所应用的技术就是我们今天要讨论的话题——爬虫!首先我做一个简单的科普,解释一下什么是爬虫技术:简单来说就是打一个自动抓取互联网信息的程序,从互联网上抓取有价值的信息。比如开头提到的比价软件,就是去各大电商网站爬取信息,汇总成自己的软件,供消费者参考。哪些电商平台是你最喜欢的有售宝物?哪个电商平台卖的最便宜。这样的软件对消费者来说再好不过了,但电商平台心里其实是排斥的。价格完全透明和比较。任何卖家都会拒绝它!童鞋们可能也会有疑虑。这些比价平台不也可以为电商平台导入流量吗?没错,没错!但是让我们都转动我们聪明的小脑袋想一想吧。首先,作为一个大型电商平台,这些引流重要吗?其次,把自己想象成一个第三方软件,持有各种电子商务平台的信息。你会做什么来赚钱?不想懂也没关系,参考一下百度的广告竞价就明白了。OK,简单的科普到这里,我们来讨论风险问题。像上面说的爬虫,虽然电商平台不爽,但是现在的法律并没有说不允许。为了研究爬虫的法律问题,研究了一下《中华人民共和国网络安全法》。这是中国网络安全第一法则。文章说“抓取公共数据的网页是非法的”!然而,我并没有就此止步,继续查找,找到了这样一个司法解释:未经授权爬取了用户手机通讯录中的50多条记录;未经授权爬取用户淘宝交易记录500余条;未经授权访问用户运营商网站上有超过500条通话记录;5万余条用户公积金社保记录被擅自读取。根据这一解释,所有涉及的数据都是非公开和隐私相关的数据。爬取一些网页的公开数据,貌似没什么问题。比如上面提到的各个电商平台的商品价格信息,都是公开的,比价软件只是把它们汇总在一起,所以没有人起诉比价软件。但是比价软件没有被起诉,不代表其他爬取别人数据的公司没有被起诉!比如曾轰动一时的李开复创新工场投资的乔达科技被警方带走,员工全部被带走。不知道这个案例也没关系,课代表来帮你补课了。这家公司曾经被称为中国最大的公司。简历大数据公司,中国最大的用户画像关键数据服务商,专注于大数据和人工智能领域前瞻产品的研发……等等,想象一下,最大的简历大数据公司,如果不是求职者自己简历是在他的网站上传的,所以大概率是爬取的其他平台的建站数据。至于用户画像的关键数据服务商,关键数据从何而来?如果所有这些数据都未经来源平台或用户授权,那么这些数据的来源就是非法的。刚才说了在《中华人民共和国网络安全法》里爬取公共数据不违法,那么违法从何而来呢?,不用担心,除了这部网络安全法,我们还有一部刑法,以下是刑法第285条:第285条【非法侵入计算机信息系统罪;系统犯罪;提供侵入、非法控制计算机信息系统程序、工具罪】违反国家规定,侵入国家事务、国防建设、前沿科技领域的计算机信息系统的,处有期徒刑。处三年以下有期徒刑或者拘役。违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段获取计算机信息系统存储、处理、传输的数据,或者对计算机信息系统实施非法控制的,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者为他人明知是侵入、非法控制计算机信息系统的违法犯罪行为而提供程序、工具,情节严重的,依法追究刑事责任。前款规定。单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各款的规定处罚。而且,简历等数据信息在互联网上并不是公开数据,不像商品价格一样是所有人都看得见的。简历信息属于个人隐私!也是招聘平台的财富!爬取这样的数据,不仅侵犯了个人隐私,也侵犯了其他公司的商业秘密,显然是违法的。堪称国内首例“爬虫”技术侵入计算机系统案,涉及上海盛品网络科技有限公司爬取今日头条数据,下图为来自中国裁判文书的判决截图网络:还有“数据堂”公司案,大家都知道现在是数据为王的时代,但爬虫使用不当、非法获取数据属实会被关起来!当然,看完这些就不用再谈爬虫了。我个人认为爬虫技术本身并不违法。非法行为在于它利用这项技术做什么!爬取大量用户隐私数据用于商业目的,显然是违法的。而且我也注意到,目前对爬虫类岗位的需求也非常旺盛。在某招聘网站上搜索了爬虫相关的工作:大部分薪水都比较诱人,规模大,做爬虫的要慎重。可能有人会认为这是公司的行为,是公司层面发生的事情。这真是一个误会。此前发条明确:单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各款的规定处罚。这就是乔达科技被警方接管的原因。因此,如果需要帮助公司爬取数据,一定要仔细擦干净眼镜,看清楚数据的来源,是用户隐私数据,还是非公开数据。领导非要你爬一些不该爬的数据怎么办?羊毛布?你还不如先给领导看看刑法第285条,不行就给老板说明情况,可是领导非要让你在违法的路上狂奔,兄弟,考虑换公司吧,毕竟,你失业了总比进去好,不是吗?最后再普及一下爬虫的一些其他知识。世界上的一切都是相互依存的。有肆意爬取数据的爬虫,也有反爬虫。爬虫最爱的数字是12306,这个很好理解。买火车票的地方就在这里。家庭中没有分号。刚上线的图片验证遭到网友吐槽。其实12306也是用心良苦,设计这么高难度的验证图就是为了防止爬虫。爬虫虽然可以模仿浏览器向服务器发送消息Request的行为,但是在区分图片方面还不够智能。还有就是完成图片验证的那种slider。拼写的过程超级简单无脑,但是也能区分发起访问请求的是人还是爬虫。人的速度肯定是不均匀的,而大多数爬虫的拼图速度都是均匀快速的,这也是反爬虫的一种手段。但是,战斗中的双枪,往往高一尺,高一尺。你有爬虫技术,我有反爬虫技术,你有反爬虫技术,我就有反爬虫技术,各种手段有无尽的。以上图验证为例。有一种叫做编码平台的东西。当你的爬虫遇到这些反爬方法时,将这些需要人为操作的程序发送到打码平台。分分钟解决这个问题后,爬虫就可以伪装成正常的浏览请求访问被爬网页的服务器。爬虫和反爬虫的大战如此激烈,为什么呢?因为爬虫只会爬到有益的地方。比如出去旅游或者外出就餐之前,大家都会查看目的地的评论,而这些评论一定是实际去过这些地方的用户留下的。评论是真的吗?不一定,你也可以通过爬虫模型等操作,留下评论、点赞、收藏,来增加自己的知名度,让自己的排名更高。而那些神仙的虚假广告,抢榜,在幕后爬行,也是少不了的。爬虫的影子,这波操作等同于欺骗?所以,还是那句话,技术本身是无辜的,就看使用技术的人怎么做了,爬虫有风险,爬虫一定要谨慎。