在整个互联网流量中,真人占多少?80%?60%?50%?据阿伯丁集团近期发布的一份基于北美数百家公司数据的爬虫调查报告显示,2015年,真实访客仅占总流量的54.4%,其余流量由27%的优秀爬虫和18.6%的爬虫组成。恶意爬虫的百分比。爬虫和反爬虫的斗争从未停止过。与2013年和2014年相比,恶意爬虫占比有所下降,真人访问占比也有所上升,但这并不意味着恶意爬虫在一天天减少。原因之一是印度、印度尼西亚等人口大国的新增互联网人口大幅增加。另一方面,恶意爬虫更注重爬虫的质量而不是数量。今天的恶意爬虫具有高度持久性和可变性。攀登与反攀登的斗争从未停止过。以往通过异常的Headers信息可以明确识别出初级爬虫,但爬虫制作者一次又一次地总结出被封杀和反爬的可能原因。通过对爬虫程序的不断测试和改进,更新后的高可持续性恶意爬虫通常具有以下一些特征:模仿人类行为,加载Javascript和外部资源,模拟cookie和useragent浏览器自动化,更改IP地址池。很多人可能认为恶意爬虫只会威胁到少数基于文本的核心价值。事实上,这些可以更改请求路径和请求方式的伪装者可能潜伏在任何网站的各个角落。文字、图片、价格、评论、界面、架构等方方面面都可能成为爬虫的腰包。纵容爬虫的危害要知道,从网站业务安全的角度来说,纵容这些伪装者的危害有以下几点:1、被爬取的网站核心文本可能会在数小时甚至数分钟内被恶意爬虫爬取。悄悄复制到其他网站。核心内容的重复将极大地影响网站和网页本身在搜索引擎上的排名,而排名低将导致访问量、销售量和广告收入减少的恶性循环。在内容为王、用户粘性不高的今天,核心内容将在很大程度上影响网站在用户心目中的价值。如果网站以文字作为商品作为盈利点,那么恶意爬虫就是影响KPI的罪魁祸首。关注网站:文学博客、招聘网站、论坛网站、电商评论2、商品价格被爬取1、价格爬虫有两个原因。一是网站竞争对手故意抓取产品详情和价格,进行相似的产品线和价格研究。例如,一个应用在推出新的汽车租赁服务之前,会抓取所有竞争应用的车型详情和定价策略,为新服务创造价格优势。另一个案例来自酒店网站。在数据分析平台Warden的实践中,我们发现该网站的房间详情被爬虫攻击,机器访问的特征非常明显:页面被某些IP访问频率高,访问次数多。单IP每小时访问量部分5000以上IP的访问路径极其单一,只请求价格详情页,没有真人访问“首页→搜索→详情页→搜索”轨迹。酒店客房信息的上述特点可以完全排除真人访问的可能性,同时在数据分析平台中也触发了多种实时策略,让我们可以协助用户及时处理。*IP点击详情*某次点击详情的请求和响应信息**点击次数和告警次数统计,红点部分为触发告警*此类爬虫是典型的价格爬虫,如果实时判断和拦截是如果不执行,网站的定价信息可能会在数小时内完全掌握在竞争对手手中。2、第二个原因是羊毛党试图在大促销前搜索低价产品信息或提前获取信息,寻找套利的可能。例如,一位P2P行业的客户发现,近几个月理财转账区产品发布2秒内转账成功,但网站活跃用户并没有明显增加,疑似转账区被抓取。通过数据分析平台,在流量中可以看出传输页面正在被爬虫攻击。攻击者可以在极短时间内获取转出产品的收益率,自动筛选高收益产品,甚至实现脚本自动下单。买。3、另一个案例来自某电商平台的一场大型营销活动,规定新注册用户绑定卡后有机会抽奖。由于抽奖界面省略了其他渠道共享入口,羊毛党也可以不绑定卡中奖。趁着抽奖的机会,几乎所有的活动奖品都被羊毛党拿走了。*网站营销页面点击量突然增加**风险情报系统提示该IP高风险*在事后审核中,我们在数据分析平台发现疑似爬虫羊毛党活动前发探路,活动总结页超限高频访问,虽然访问量不集中在少数几个IP,但具有集中访问两个城市,访问路径单一,以及定期访问间隔。此外,通过风险情报系统Red.Q的数据,也表明这些访问IP的风险评分很高。活动开始后,羊毛党的来访也出现了类似的访问模式。羊毛党的活动特点是一个很大的话题,这里就不展开了,但是从案例中我们可以看出,价格爬虫是羊毛党的一个开创性工具。攻击者可以利用爬虫获取营销活动的具体信息,同时可以测试网站对高频访问或最大访问次数的限制,为日后做铺垫。3.注册用户扫描。如果您在网站的注册页面输入注册号,通常会看到“该用户已经注册”的提示,该信息也会在请求的响应中显示。一些网站的短信接口也有类似的逻辑,注册用户和非注册用户返回的字段和枚举值会不同。利用这种业务逻辑,恶意爬虫通过各种社会工程数据库获取一批手机号码后,可以在短时间内验证这些号码是否为某网站的注册用户。这些数据有什么使用价值?除了明显的非法欺诈外,攻击者还可以将数据打包出售给竞争对手或感兴趣的数据营销公司,以提高其精准营销数据。4、其他危害点击欺诈:点击欺诈会给网站造成实际的利润损失。广告的投放通常是为了触及符合网站定位的潜在消费者。爬虫造成的点击欺诈,使广告的点击率虚高,使网站承担不该承担的点击成本。从运营的角度来看,访问量的不合理波动也不利于分析广告效果。网站带宽负担:对于带宽有限的中小型网站,爬虫可能会降低网页的加载速度,影响真实用户的访问体验。前期筛查和预防是关键。恶意爬虫在给网站带来可观流量的同时,也带来了不可估量的威胁和损失。从实际案例中可以看出,恶意爬虫已经承担了整个攻击环节的先行者重任。因此,我们在分析网站的业务安全风险时,可以多关注流量和用户行为的异常点,尽量规避。对恶意行为应及时甄别,合理判断,一旦发生及时拦截。必要时,利用专业的风险情报系统和数据分析平台进行系统部署。对于企业来说,事前预防远比事后补救重要。反爬虫文章来源:http://bigsec.com/作者简介大兴奇安科技数据分析师3年互联网数据分析和运营经验,丰富的多行业业务风险反欺诈经验,负责运营奇安科技产品及不同行业客户的不同业务风险分析。
