当前位置: 首页 > 科技观察

数据科学和机器学习方法对网络安全的影响

时间:2023-03-16 21:38:54 科技观察

1。背景由于对数字化和物联网的依赖越来越大,各种安全事件,如未经授权的访问、恶意软件攻击、数据泄露、拒绝服务攻击(DOS)、分布式拒绝服务攻击(DDOS)、网络钓鱼等,近年来此类安全事件呈指数级增长。2010年,安全社区已知的恶意软件可执行文件不到5000万个。据相关研究机构统计,到2012年,增加了1亿个,到2019年,安全界已知的恶意可执行文件数量已经超过9亿个,而且这个数字还有可能继续增长。这种网络攻击会给社会、国家和每个人带来巨大的安全风险。因此,如何准确识别各种已存在或未发现的网络攻击,并智能地保护相关系统免受此类网络攻击,是亟待解决的关键问题[1]。网络安全本质上是一组技术和流程,旨在保护计算机、网络、程序和数据免受攻击、损坏或未经授权的访问。近年来,计算领域的网络安全技术正在发生巨大的变化,而数据科学正在推动这一变化,机器学习作为人工智能的核心部分,可以在数据科学领域发挥至关重要的作用,利用机器学习可以显着改变网络安全格局,数据科学正在引领一种新的科学方法。此类技术的普及正在增加。如图1.1所示,2014年流行指数不到40,而2019年流行指数不到40。已经超过70。分析网络安全数据并构建正确的工具和流程以成功预防网络安全事件不仅仅是一个一组简单的功能要求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式,可以使用一些机器学习技术,如特征工程、数据聚类、分类和关联分析,或基于神经网络的深度学习方法来做出合理的决策。图1.1数据科学网络安全趋势II。研究挑战国内外研究人员从大量的数据分析研究中得出了从数据中提取信息的基本概念和原理。从数据中提取有用的信息应该通过现有的标准化步骤处理整个过程。数据科学需要在使用它的上下文中详细考虑和评估结果,因为提取的信息对于帮助给定程序中的决策过程很重要。关联发现是网络安全领域应该考虑的数据科学的基本概念之一,它通常提供相关数据项的详细信息,特别是我们已知的数据项的数量,从而大大减少未知的不确定性。微软推出了TDSP,它为数据科学项目创建了一个生命周期。然后通过比较KDD过程,CRISP-DM、TDSP和FMDS,FMDS、CRISP-DM和TDSP应用最广泛,因为它们被认为是最流行的,同时它们也是针对机器学习和数据科学领域的.这些技术与网络安全领域密切相关[2]。分析网络安全数据并构建正确的工具和流程以成功预防网络安全事件不仅仅是一组简单的功能要求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式,可以使用一些机器学习技术,如特征工程、数据聚类、分类和关联分析,或基于神经网络的深度学习方法来做出合理的决策。3.网络攻击安全挑战这种风险通常与许多攻击有关。通常我们会考虑三个安全因素。首先是威胁,即谁在攻击;二是漏洞,即被攻击的是什么;最后是影响,也就是攻击做了什么。安全事件是威胁信息和系统的机密性、完整性或可用性的行为。可能导致大量或个别系统和网络受到攻击的几类网络安全事件是:未经授权访问网络、系统或数据信息是不安全的行为,存在较大隐患;恶意软件是故意设计成对计算机、客户端、服务器或计算机网络造成损害,对系统造成巨大影响的程序或软件;拒绝服务(DOS)是一种旨在关闭机器或网络以使目标用户无法访问它的攻击;网络钓鱼是一种恶意入侵,用于进行范围广泛的恶意或即时通讯,伪装成受信任的个人或团体,参与获取敏感信息[3]。4.数据科学与网络安全数据科学我们生活在一个充满数据的时代,数据驱动着许多行业。从数据中发现隐藏的、有趣的知识信息的过程称为数据挖掘。为了使用真实的数据来理解和分析生活中的现象,我们使用了各种科学方法、机器学习等,这些方法通常被称为数据科学。数据科学的一般定义是从数据中提取信息,用科学的方法发现新事物。数据科学可以利用存储、计算和行为分析等技术来建立新的网络安全方法。一般来说,分布式系统构建的集群存储更容易收集和存储大量数据。数据科学的应用使得访问大量数据和解决复杂的安全问题成为可能。利用海量大数据进行数据挖掘,往往数据越多,就越能做出精准精准的分析。在网络安全领域,数据科学利用海量数据、高性能计算和数据挖掘等方法保护用户免受网络攻击,在信息安全领域发挥着重要作用。数据科学在很大程度上是由数据的可用性驱动的。数据集通常表示由若干属性或特征和相关事实组成的信息记录的集合。网络安全数据科学基于这些集合。因此,了解包含各种类型网络攻击的网络安全数据的性质和相关特征很重要。由于从相关数据源收集的原始安全数据可用于分析安全事件或恶意行为的归属模式,因此可以在此基础上建立数据驱动的安全模型来实现我们的目标。网络安全领域存在几个数据集,包括入侵分析、恶意软件分析、异常、欺诈或垃圾邮件分析,因此在图2.1中,总结了几个这样的数据集,包括它们的各种可访问攻击,也列出了用于基于不同Web应用程序的攻击机器学习[4]。图2.1数据科学中的分析阶段就是对这些安全特征进行分析处理,根据需求构建基于目标机器学习的安全模型,最终实现数据驱动,这就是要达到的目标。因此,网络安全数据科学的概念结合了数据科学和机器学习,以及对各种安全事件的行为进行分析。将这些技术结合起来,就产生了网络安全数据科学的方法,即从不同来源收集大量安全事件数据,利用机器学习的方法来检测安全风险或攻击,最终发现高效或最新的数据驱动模式。5.总结与展望数据科学正在逐渐改变世界各行各业,对智能网络安全系统和服务行业的未来至关重要,因为网络安全的一切都与数据有关。当我们检测到网络威胁时,我们通常会以日志、网络数据包或其他相关来源的形式分析安全数据,安全专业人员传统上不会使用数据科学知识来分析这些数据。检测,而是使用签名、手动防御等方法。虽然这些技术在特定情况下有其自身的优点,但它们也需要太多的人力来跟上不断变化的网络威胁形势。数据科学可以在这个领域得到应用并产生重要的影响。借助数据科学结合机器学习算法,可以从训练数据中学习和提取安全事件,增强洞察力以检测和预防安全事件。相信在未来,Datascience会更广泛地应用于网络安全领域。参考文献[1]Kotenko、Igor、IgorSaenko和AlexanderBranitskiy。“用于网络安全数据分析的机器学习和大数据处理。”网络安全和网络威胁情报中的数据科学。Springer,Cham,2020.61-85.[2]Thanh,CaoTien。“网络安全机器学习技术研究。”2021年第15届高级计算与应用国际会议(ACOMP)。IEEE,2021.[3]Alhayani、Bilal等。“人工智能技术应对IT行业网络安全风险的有效性。”MaterialsToday:Proceedings(2021).[4]Shaukat,Kamran,etal.“过去十年的网络安全机器学习技术调查。”IEEEAccess8(2020):222310-222354。