网络攻击是指利用网络或其他技术,利用系统缺陷或采用暴力攻击的方法,使信息系统发生异常或危害其正常运行。随着网络技术和应用的发展,网络攻击的数量和严重程度都在增加。网络攻击识别对保障网络安全具有重要作用。通过训练深度学习模型,可以实现对攻击活动的检测,达到发现已知攻击类型的目的。基于深度学习模型的攻击识别研究成为热点。监督式深度学习模型可以通过海量标记数据更好地识别攻击行为,但监督式学习模型需要标记样本,尤其是深度学习模型,标签数据集的建立还需要大量安全专家的协助,费时费力。虽然有公安数据集,但攻击演进很容易过时。另外,如果将收集到的所有数据都提交给专家进行标注,由于攻击数据占所有数据的比例很低,会浪费大量的金钱和时间。1.网络攻击的分类要准确识别攻击,就必须了解网络攻击的分类。国家标准化管理委员会发布的《GB/Z 20986——2007信息安全技术信息安全事件分类分级指南》是为信息安全事件分级提供指导的技术文件。根据其对网络攻击事件的分类,本文将网络攻击的类型归纳为拒绝服务攻击、后门攻击、漏洞利用、扫描窃听、钓鱼、干扰攻击等网络攻击。下面将详细介绍这些攻击方法。1.1.拒绝服务攻击拒绝服务(DoS)攻击是一种通过发送恶意数据包降低服务器和网络性能,使合法用户无法正常使用网络资源的攻击方式。其常见的变体是分布式拒绝服务(DDoS)攻击,它使用大量分布在不同位置的计算机同时向目标发送攻击以耗尽目标的资源。与DoS攻击相比,由于攻击者分布不同,规模庞大,网络管理者很难及时区分恶意攻击者采取防护措施,因此成功概率更高。随着计算资源变得越来越便宜,DDoS攻击的规模不断扩大。根据谷歌的报告,其在2017年9月遭受了2.5Tbps的超大规模DDoS攻击,是2016年创纪录的623GbpsMirai僵尸网络规模的四倍。根据攻击路径的不同,常见的DDoS攻击可以分为分为直接攻击和反射攻击。1.2.后门攻击后门(程序)会禁用身份验证系统并授予特定用户远程访问权限。后门攻击是利用系统中的后门向信息系统发送远程命令,进而控制系统。被利用的后门可以是在软件系统或硬件系统设计过程中留下的,也可以是攻击者上一次攻击成功后留下的。1.3.漏洞利用信息安全漏洞是硬件或软件配置和实施中的安全弱点。漏洞利用是指利用本地或远程计算机硬件或软件中的一个或多个漏洞,进行安装恶意软件、运行恶意代码、获取隐私数据、控制系统等非法活动。国家信息安全漏洞库采用的漏洞分类指南将信息安全漏洞分为26种类型,图1给出了它们之间的层次关系。图1CNNDV漏洞分类层次树1.4.扫描窃听扫描窃听是借助网络安全扫描技术,通过网络获取目标网络或主机信息的行为。网络安全扫描一直是安全人员发现网络中服务的关键技术,但也被攻击者用来发现构建攻击工具所需的信息,如被攻击系统的开放端口、漏洞等。有很多成熟的扫描工具可用,比如Nmap、Nessus、Acunetix等。常见的扫描窃听攻击分为端口扫描攻击和漏洞扫描攻击。端口扫描攻击通过发送检测包获取端口响应,进而推测开放的服务和端口信息。端口扫描会报告目标端口是以下三种状态之一:(1)open:目标主机正在侦听该端口并使用扫描中使用的服务;(2)closed:数据包请求已经收到,但是服务端口没有在监听;(3)过滤:发送了一个数据包请求,但是没有回复,说明防火墙过滤了请求数据包。每个开放的端口都为攻击者提供了一个访问点,从而提供了破坏的机会。1.5.PhishingPhishing攻击通过伪装成可信实体(通常是真实的组织或个人)来欺骗用户信任他们,往往会产生一种紧迫感,促使用户采取行动,从而达到攻击目的。根据攻击形式的不同,钓鱼攻击包括钓鱼邮件、域名欺骗、水坑钓鱼等。网络钓鱼电子邮件:网络钓鱼电子邮件是最常见的网络钓鱼攻击。为了使邮件可信,攻击者会使用与钓鱼邮件中伪装组织或个人相似的邮件地址,并使用相同的措辞、字体、标识和签名。通过诱使用户跳转到设计好的恶意网站或下载恶意附件,获取用户名、密码、联系方式等重要敏感信息。域名欺骗:域名欺骗是指采用伪装真实的网站设计,使用相似的网络域名和字符,使之看起来真实,从而创建一个具有欺骗性的网站。例如,域名apple.co用于伪装苹果公司的域名apple.com。目标。水坑攻击首先识别目标公司员工最常访问的特定网站类型(例如企业服务提供商网站),然后感染其中一个或多个网站。当员工访问受感染的网站时,主机会加载恶意软件,为攻击者提供访问公司内网并获取敏感信息的机会。当这些类型的攻击只针对一个人时,它们可以归类为鱼叉式网络钓鱼攻击。与鱼叉式网络钓鱼电子邮件攻击一样,攻击者向在目标组织中扮演特定角色的人发送一封定制的电子邮件。此电子邮件旨在从特定人员那里获取登录信息或感染特定人员的计算机。1.6.干扰攻击干扰攻击是指通过一定的技术手段干扰网络,影响通信质量或中断通信的行为。1.7.其他网络攻击其他网络攻击是指不包括在上述六个子类别中的网络攻击。2.基于主动学习模型的网络攻击识别主动学习(ActiveLearning)方法通过要求专家只标注信息量最大的样本,在保证准确性的同时降低标注成本。主动学习框架主要分为采样策略和学习器两部分。它首先通过一定的采样策略从大量未标记样本中选出目标样本并提交给专家标记,然后使用标记后的样本对学习器进行训练。这个过程可以结合学习者的表现作为反馈和采样策略来主动选择样本,避免标记无效样本,减少训练样本的资金和时间投入。由于深度学习模型训练时间较长,因此只考虑基于批处理的主动学习模型,即每轮抽取b个样本,交给专家进行标注。图2基于主动学习框架的攻击识别模型训练图由于主动学习的关键问题是如何选择最有意义的样本来要求智能体(通常是人类专家)进行标记,因此研究工作主要集中在采样策略上。不确定性采样(Uncertaintysampling)是一种常用的采样策略,它选择当前分类器最不确定的样本请求标签。不确定性度量方法包括最小信任、最小距离、熵、不同学习者之间的意见差异等。但是,这些经典的主动学习方法可能不适用于批处理。由于深度模型的复杂性,需要训练的参数较多,训练时间往往比普通机器学习模型长。经典的使用单个样本更新模型的主动学习方法不适用于深度学习模型,因此需要一种基于批处理的学习方法。即每次从一个大的样本池中选出一批样本来训练和更新模型。但是,仅根据不确定性排序选择的集合会存在样本冗余的风险,不适合批量主动学习。为此,研究人员根据批学习要求对不确定性算法进行了改进。例如,通过引入多样性和密度来改进基于不确定性的标准,或者设??计一种包含多样性措施的主动学习批处理模式方法。它们都对目标函数施加了多样性约束,使得选择用于标记的样本彼此之间应该有足够的差异。为了避免不确定样本是实际噪声,使用高斯混合模型从密集区域中选择不确定样本。一种名为CEAL的伪标记方法,它不仅进行不确定性选择,还将高度置信度的样本添加到增强训练集中,以提高泛化精度。与上述主动学习方法不同,所选样本的一些标签可以从训练模型的预测结果中推断出来。它的主要缺点是需要调整阈值来控制预测的置信度,以免破坏训练集。不可避免地,基于不确定性的算法高度依赖于训练有素的学习模型。但是,在过程的早期使用少量标记数据可能最终导致模型训练不佳。为了提高模型的最终效果,还有一些其他的采样方法。Fisher信息矩阵作为模型不确定性的度量,可以有效减少分类模型的未标记Fisher信息集。或者尽可能使选取的样本具有多样性和不确定性进行抽样。但是,在深度学习模型中,不确定性采样方法通常使用输出层上一层的输出,即logits来评估不确定性,这可能导致其性能比随机采样算法(Randomsampling),即使是最好的批量主动学习模型。另一种主流的批量主动学习方法是贝叶斯主动学习方法。其原理是通过估计每个查询样本或一组查询的预期误差来估计模型的预期改进。然而,由于算法的复杂性,它不能扩展到用于深度学习的大规模数据集。卷积神经网络的主动学习被定义为核心集选择问题。它以任一点到其最近标记点的距离的最大值作为评估损失评估标准,并选择能使该距离最小的数据集作为样本集。从新的角度分析主动学习,将其视为二元分类任务,使标记集与未标记池无法区分,以选择样本进行标记。由于算法中的每个批次都需要多个小批次,因此他们的方法比其他方法需要更多的训练时间。此外,当未标记池远大于标记池时,它们用于训练分类器的样本不足以覆盖整个数据集信息。在不平衡数据上训练的分类器将进一步限制其整体有效性。综上所述,基于批次的主动学习方法虽然可以减少深度学习模型的训练时间,但是在基于一定的信息评价标准对样本排序结果进行采样时,容易选出冗余样本。这是因为相似样本的排名相似。虽然它们各自拥有大量的信息,但是如果同时选择多个样本,会带来冗余信息。因此,在网络攻击识别的主动学习应用中,如何筛选数据样本仍然是未来需要关注的问题。参考文献[1]DecomainC,WrobelS。信息抽取的主动隐马尔可夫模型[J].智能数据分析国际研讨会,2001.[2]解决B。主动学习文献调查[J].威斯康星麦迪逊大学,2010年。[3]FreundY,SeungHS,ShamirE,等。基于委员会查询的选择性抽样算法[J].机器学习,1997,28(2-3):133-168.[4]王凯,张德,李勇,等。具有成本效益的深度图像分类主动学习[J]。IEEE视频技术电路和系统汇刊,2016年,27(12):1-1。
