近日,一家大数据技术公司因涉嫌非法抓取某招聘网站用户的简历信息而被关停,负责编写抓取程序的程序员也将面临牢狱之灾。事情的大致过程是这样的:某大数据技术公司的老总把一个网站丢给一个小程序员,让他抓取这个网站的数据,我们分析一下。这位小程序员写了一个抓取代码并进行了测试。程序没问题,可以正常抓取这个网站的数据,然后毫不犹豫的上线了。过了几天,这个小程序员发现爬取速度有点慢,于是把1个线程改成10个线程,发布到网上,开始爬取。程序运行没有任何问题。过了一段时间,站长老大发现最近网站访问量猛增,而且经常宕机。然后组织公司的程序员排查系统问题。检查后发现系统某接口被频繁访问,怀疑有人恶意攻击,故上报。民警通过访问源IP查明了小程序员所在的公司,并将该公司200名员工全部拘留调查。这个小程序员将面临牢狱之灾,因为他负责编写捕获程序。小程序员一脸懵逼。我只负责老板交给我的任务。我触犯了什么法律?看完这条消息,程序员朋友们赶紧把你的爬虫下线吧,不然下一个要抓的就是Areyouafraid?爬虫技术对于大多数程序员来说并不陌生。大多数程序员都做过爬虫的工作!记得我在刚毕业加入的第一家公司负责爬虫。主要抓取各大高校官网的新闻资讯信息,然后利用这些信息制作高校手机微官网。当然,我们已经通过了大部分高校的默认。今天我们不关心爬虫是否违法,我们不知道这个问题。中国有很多大数据分析公司。他们可以提供各种数据点。他们的数据从何而来?其中有多少是合法来源?恐怕大部分都是爬的。今天我们盘点那些java爬虫技术。1.Jsoup的HTML解析器可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的API,可以通过DOM、CSS和类jQuery的操作方式来检索和操作数据。这也是我最早使用的爬虫技术。二、HtmlUnitHtmlUnit是一个java无界面的浏览器库。它可以模拟HTML文档并提供相应的API,让您可以调用页面、填写表格、点击链接等操作。这是一种出于测试目的模拟浏览器的方法。使用HtmlUnit让你感觉像是在操作一个浏览器,而且它对css和js都支持的很好。三、SeleniumSelenium是一个用于web应用测试的工具。Selenium测试直接在浏览器中运行,就像真实用户一样。支持的浏览器包括IE(7、8、9、10、11)、MozillaFirefox、Safari、GoogleChrome、Opera等。我认为Selenium是最好的爬虫工具,因为它完全模拟了浏览器。浏览器被程序丢弃,模拟人的操作。在我的文章【硒利器!解放测试程序员的双手]。最后,爬虫有风险,需谨慎使用。希望程序员朋友们在使用爬虫技术的时候要有数据隐私的意识。以下内容来自网络:如果爬虫程序收集公民的姓名、身份证号码、通讯联系方式、地址、账户密码、财产状况、行踪等个人信息,并以非法方式使用,必须构成非法获取公民个人信息的违法行为。此外,根据有关规定,违反国家有关规定,出售或者向他人提供公民个人信息,情节严重,窃取或者以其他方式非法获取公民个人信息的,可以构成“公民个人信息罪”。侵犯公民个人信息。””,处三年以下有期徒刑或者拘役,并处罚金;情节特别严重的,处三年以上有期徒刑。七年以下,并处罚金。
