0x00,前言企业安全建设一般伴随着安全业务需求。在安全运营中心建设过程中,应急处置过程需要在清理阶段找到安全事件的根源。并提出并实施了激进的解决方案,对网络层数据的回溯提出了更高的要求。那么如何在公有云和私有云上构建有效的全流量分析系统呢?这里有一些方法和大家一起讨论。0x01。产品研究在建立这个系统之前,你需要做产品研究看看其他人是怎么做的。当然,要找到适合自己公司的全流量解决方案,首先我们需要带着以下几个问题来思考:1.找到适合自己网络环境的元数据存储方案。没有好的数据,您的安全运营团队就无法进行调查。2、你们的网络入侵检测引擎能否分析异常网络流量,减少网络回溯次数?3、你们搭建的全流量系统的极致安全能力是什么?如何关闭应急响应循环。1、对于网络层数据,我们到底要存储什么?全流量安全的建设一般分为以下几个阶段:第一阶段:网络流量,只存储五元组数据统计,对网络流量有一个总体概览。第二阶段:网络IDS,通过基于内容的规则匹配,例如:使用ETPro规则存储安全告警事件,基于规则的安全引擎可以发现简单的入侵事件。第三阶段:网络元数据,存储高保真元数据统计数据,为安全事件调查回溯做准备。第四阶段:PCAP,存储所有网络流量数据,在调查一些细微流量时提供证据支持。对于公有云环境,面对海量数据交换,如何更有效地存储元数据。第一阶段通过IDS/IPS引擎采集netflow->kafka->ElasticSearch(近期热点数据)->hbase(长期冷数据)。第二阶段:通过IDS/IPS引擎->kafka->ElasticSearch收集规则匹配数据(近期热点数据)第三阶段:个人理解需要对可疑流量进行行为分析和攻击链分析(reconnaissance,lateralmovement,Command&Control,Dataexfiltration).Phase4:使用packetbeat分析(DNS、HTTP)->kafka->spark(攻击发现、信息泄露、内部威胁源等算法)->hbase(长期冷数据),攻击时播放返回,通过自研程序从hbase中读取数据,输入到ElasticSearch中,通过kibana进行查询。2、异常流量分析,需要AI吗?作为IDS特征的补充,网络异常流量分析需要结合机器学习。下面是对Darktrace的调查:Darktrace:机器学习的难点:1.没有两个网络是一样的,需要在每个网络中使用机器学习算法。2.对客户的配置和调整模型要求极低。3.要求团队成员具有较高的安全能力和数学能力。4.价值必须立即体现。随着环境的变化,需要不断的学习和适应。5.必须具有线性可扩展性那么,机器学习是如何确定威胁的呢?以下是判断过程:无监督学习实现手段:该方法用于检测网络对计算机系统的威胁。该方法包括接收输入数据、从输入数据导出指标、使用异常模型分析指标、计算威胁可能性以及最终确定威胁。首先,人们已经认识到,仅基于已知和既定的威胁规则来保护网络是不够的。因此,更需要一种能够动态适应网络安全威胁变化的方法。第一阶段:获取元数据1.我们通过netflow获取传输数据的五元组和大小。2.从pcap文件中分析文件访问、SSL证书、认证成功失败信息。阶段2:导出指标从这些原始数据源中,可以导出大量指标,每个指标都产生时间序列数据。数据被分成单独的时间片(例如,观察到的数量可以每1秒、每10秒或每60秒计算一次),这些时间片可以在稍后阶段合并,为所选内部大小范围值的任意倍数提供更长的时间片.例如,如果选择的基准时间片长度为60秒,则每个指标时间序列每60秒存储一个指标值,则可以为所有时间序列数据计算任何新的Accuracy。当可以分析应用层协议时,可以定义更多类型的时间序列指标:1、网络设备在每个时间间隔内产生的DNS请求数,或者任意可定义的目标网络范围或总数。2、机器在每个时间间隔内产生的SSH、LDAP、SMTP、POP或IMAP登录次数或登录成功、失败信息。3、通过文件共享协议传输的数据,如:SMB、SMB2、FTP等第三阶段:分析指标线性贝叶斯系统自动判断多个时间序列数据的周期性,识别单个和多个时间序列数据,防止恶意行为。检测器分析二级指标。检测器是离散的数学模型,针对不同的变量集和目标网络实现特定的数学方法。例如,HMM可能看起来特定于节点之间数据包的大小和传输时间。探针在层次结构中提供,层次结构是错序模型的金字塔。每个检测器或模型都有效地充当过滤器,并将其输出传递给金字塔上方的另一个模型。位于金字塔顶端的是HyperCylinder,它是最终的威胁决策模型。每个低级探测器都监视不同的全局属性或签名软件规范网络和计算机。这些分支具有更高的内部计算功能,例如数据包速度和形状、端点文件系统值和TCP/IP协议定义的事件。每个检测器都是特定的,并根据HMM等内部数学模型考虑不同的环境因素。第4阶段:计算威胁可能性启发式算法是使用复杂的加权逻辑表达式链构建的,表示为正则表达式,其中操作来自数据测量/标记化检测器输出和本地上下文信息。然后将这些逻辑表达式链存储在和/或在线库中,并实时解析为测量/标记化探测的输出。一个示例策略可以采用“如果任何受HR管理纪律(上下文信息)约束的员工在与以前的行为(模型输出)进行比较时接受敏感信息(启发式定义),请警告我”。此外,还提供了不同的探针金字塔阵列来检测特定类型的威胁。Stage5:ThreatJudgement威胁检测系统使用映射到观察到的行为生命周期分析的自动自适应周期性检测来计算威胁风险参数,威胁风险参数表示威胁被威胁的可能性。存在。这表明,随着时间的推移,这些属性本身就表明存在偏离规范的集体或个人行为的威胁。自动自适应周期性检测使用超级计算机来计算与观察到的网络最相关的时间段和/此外,生命分析确定人类和/或机器随时间的行为方式,即它们通常开始和停止工作。由于这些模型不断自我调整,因此它们本质上比已知的更难被击败。3.闭环安全应急响应当我们有了基础网络数据,进行有监督或无监督学习后,接下来我们需要做什么?我们在应急响应的安全实践中发现,网络获得了安全威胁分类,需要进一步丰富客户端数据,如EDR数据,才能更真实有效地识别攻击。否则,无法形成闭环。那么,您如何将整个调查过程联系在一起呢?所以真正能形成战斗力的方案:NTA+EDR+SOAR。0x03。总结1.有一套网络元数据存储方案,方便排查和回溯。2.企业应强烈考虑NTA使用新的机器学习检测方法来补充基于签名的检测方法。NTA工具检测其他外围安全工具遗漏的可疑网络流量。3、单一存储的NTA方案无法满足用户的应急响应需求。需要EDR来丰富入侵证据,需要将SOAR集成到自动化应急响应流程中。
