恶意爬虫正在破坏您的网站，今年的“网络流氓”真是难对付

时间：2023-03-18 15:32:43 科技观察

在整个互联网中，有多少流量是真正的访客？90%？70%？还是50%？著名研究机构AberdeenGroup在2019年做过一项调查，真实访客的流量只占全网流量的62.8%，剩下的37.2%是机器人（Bot）产生的流量。恶意机器人恶意机器人占机器人流量的比例高达24.1%。早在2015年，这个数字就只有18.6%。在短短5年内，恶意机器人的比例增加了6个百分点。这个比例是什么意思？如果一个公司经营一个网站，可能意味着24%的用户是假的；策划一场线上活动，24%的奖品会被Bot刷走；24%的服务器资源会被浪费……对于一个成长中的公司来说，这是相当致命的。恶意bot可以从各个方面对企业的正常业务造成广泛的影响。（一）恶意注册2020年底，微信发布公告封禁300万个涉嫌恶意注册的账号。因恶意注册被封禁的账号已超过620万个。如此庞大的注册量，会让企业无法获得真实的用户数据，从而导致决策出现偏差。短时间内大量的注册也会对服务器造成压力。如果恶意注册的账号在市场上流通，也会给企业带来政策法规方面的风险。（二）非法登录2018年，一名英国男子对17个网站发起暴力破解，窃取了16.5万余条用户信息，并打包在暗网上出售。攻击者通过Bot撞库、暴力破解等手段，非法获取账户敏感信息，如姓名、手机号等，并打包出售。它还可以出于非法目的窃取帐户资产或权限。（三）非法抓取2019年，今日头条因抓取大量百度搜索结果被百度以不正当竞争为由起诉，索赔9000万元。非法抓取不仅有大案，也有小案，因为爬虫抓取他人信息的案例时有发生。从企业的角度来看，被恶意爬虫光顾，核心业务数据被抓取，对手很容易获取这些信息，将导致网站竞争力下降。(4)恶意刷票大量的恶意刷票机器人会阻止正常用户购买他们需要的门票。参赛者利用恶意机器人抢票，然后退票，导致业务无法开展，造成损失。(5)活动作弊无论企业要举办什么线上活动，恶意Bot都是一大威胁。一般情况下，企业会设置一些简单的反刷策略，但也不能完全避免被羊毛党扒光。零元购买、闪杀、抢红包、优惠券等被羊毛党抢走的事情屡见不鲜。恶意Bot防御既然恶意Bot会严重影响企业的正常业务，那么如何防御呢？一般可采用六种方法。（1）限制源IP直接限制源IP的请求速度，简单粗暴。这种方法有一定的风险。比如在闪购、抢购活动中，需求瞬间激增。如果源IP请求被限制，则误报率高。与恶意机器人相比，过高的误报率会造成更严重的后果。限制源IP一般只是作为辅助手段。(2)Cookie支持Cookie支持可以识别一些比较简单的Bot程序。简单的bot程序是不支持cookies的，我们可以通过在服务器端写入cookies来判断是否是bot。由于Bot支持Cookie的时间成本很低，所以这种方式的效果比较有限。(3)Bot行为分析由于恶意Bot是通过模仿正常的用户行为来发出请求的，所以它们具有一定的特征。通过分析和识别这些特征，可以检测到恶意机器人。但是，“行为”是一个抽象的概念，很难判断。普通企业很难投入大量的时间和精力进行研究。只有专门从事安全工作的公司才会制定行为分析方案。例如，微客云的“BotGuard爬虫管理”可以通过情报数据库、访问控制、陷阱感应、人机交互、机器学习等技术分析访问者的行为，识别恶意Bot。(4)IP情报信息分析正常流量的行为在相似的时间段内是正常的，但异常IP的行为是不同的。例如，一个用来发起DDoS的bot，不仅会用来发起攻击，还会在一段时间内一直处于攻击状态。通过大数据分析技术和历史事件威胁分析，提前发现恶意Bot并进行防御。《第47次互联网络发展统计报告》表明网站安全事件和信息系统漏洞逐年减少。例如，2020年被篡改网站数量较2019年同期下降22.7%，但恶意Bot却逐年增多，已成为企业不容忽视的黑洞。防御恶意机器人还有很长的路要走。

上一篇：浅谈人工智能可以应对数字化转型挑战的5个领域

下一篇：使用Func-T,TResult-委托API日志记录

恶意爬虫正在破坏您的网站，今年的“网络流氓”真是难对付相关文章