当前位置: 首页 > 科技观察

验证码识别器可识别94.4%的暗网验证码

时间:2023-03-19 22:05:34 科技观察

研究人员提出了一种基于机器学习的验证码识别器,可识别94.4%的暗网验证码。当前,网络攻击、数据泄露等网络犯罪数量呈指数级增长。因此,让暗网更加透明,对于防御针对性的网络攻击具有重要意义。研究人员希望创建一个系统来简化网络威胁情报的处理,这需要系统能够识别目前需要手动识别的CAPTCHA验证码。CAPTCHA(CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart,全自动图灵测试区分计算机和人类)的目的是区分计算机和人类的程序算法,是区分用户和计算机的计算程序人类,该程序必须能够生成和评估人类可以轻松通过但计算机无法通过的测试。DW-GAN暗网验证码为了保护暗网网站免受DDoS攻击等威胁,暗网网站目前在其登录页面上使用验证码。而且这些验证码都是自定义的,很难开发出高精度的验证码识别器。因此,从暗网市场和论坛自动收集网络威胁情报变得非常困难和昂贵。DW-GAN方法为了解决这个问题,研究人员提出了一种基于机器学习方法的验证码识别器——DW-GAN。与最近基于人工智能方法的验证码识别方法不同,DW-GAN使用GAN去除背景噪声和增强的字母分割算法来处理可变字符长度的验证码图像。FigureBoundaryTrackingandIntervalRecognition识别器可以通过去除图像噪声、识别字母之间的边界并将内容分割成单个字母来区分字母和数字。图CAPTCHANoiseRemovalandAlphabetSegmentation因此,CAPTCHA的大小并不影响识别器的有效性,尤其是在3次识别的累积性能方面。不同CAPTCHA大小的识别准确率如下图所示:图.不同CAPTCHA大小的识别准确率从字符识别的角度来看,识别器使用从多个局部区域提取的样本来识别线条和边缘等精细特征,因此不会受到字符旋转、字体大小变化、颜色混合等影响图不同字体的数据样本真实场景测试研究人员在不同数据集上测试了DW-GAN方法,包括真实场景中的YellowBrick测试.研究人员从YellowBrick收集了1,831件非法产品,包括286件与网络安全相关的物品,其中包括102张被盗信用卡、131个被盗账户、9个伪造扫描文件、44个黑客工具和1,223个毒品相关信息。图。在黄砖市场测试数据集。在DW-GAN的帮助下,这1831条情报信息的数据成本;5个小时。加载每个新页面的HTTP请求需要8.8秒,因此启动1831个页面需要268.5秒,用DW-GAN破解和识别验证码需要18.6秒。总体而言,DW-GAN破解CAPTCHA的尝试次数不超过3次,破解1831个产品页面的CAPTCHA验证码耗时76分钟。与其他基于机器学习的验证码识别器的性能对比如下:图.与其他基于机器学习的验证码识别器的性能对比相关研究成果发表在ACMTransactionsonManagementInformationSystems杂志上,DW-GAN代码为也上传到GitHub,参见:https://github.com/johnnyzn/DW-GAN论文下载地址:https://arxiv.org/pdf/2201.02799.pdf本文翻译自:https://www.bleepingcomputer.com/news/security/researchers-develop-captcha-solver-to-aid-dark-web-research/如有转载请注明出处。