基于机器学习的用户实体行为分析技术在账户异常检测中的应用_0

时间：2023-03-15 13:06:45 科技观察

随着企业业务的不断扩展和电子化的发展，企业自身的数据和负载数据开始急剧增加。然而，作为企业核心资产之一的内部数据正面临着日益严峻的安全威胁。越来越多的周期长、频率低、隐蔽性强的非显性攻击绕过传统的安全检测手段，造成大量数据的破坏。当前，用户和实体行为分析（UEBA）系统作为一种新兴的异常用户检测系统，正逐步颠覆传统防御手段，开启网络安全防护从“被动防御”到“主动攻击”的新篇章。.因此，将重点介绍UEBA在企业异常用户检测中的应用。首先，通过用户、实体、行为三要素的关联，整合各类能够反映用户行为基线的数据；其次，定义了四种特征提取维度，有效提取了数十种最能反映用户异常情况的基本特征；第三，使用三种异常检测算法通过集成学习方法对异常用户进行建模；最后通过异常评分定位异常风险最高的一组用户。实践中，通过对Top10异常用户的调查，证明了安恒信息的UEBA实现方式在异常用户检测方面的效率极高。随着互联网技术的日益发展和国家大数据战略的深入推进，数据采集终端越来越多，采集类型也越来越丰富。数据已经成为企业最重要甚至核心的资产之一。在数据价值被高度重视的同时，企业面临的各种数据安全威胁也越来越严重，信息安全逐渐以数据安全为重心。正常情况下，外部攻击形式多样，持续频繁。企业习惯于部署资源构建安全堡垒来抵御外部攻击。然而，除了外部黑客攻击，内部人员参与信息贩卖、与第三方共享的事件也层出不穷。调查显示，大约75%的安全威胁来自组织内部。无论是带走专有数据的离职员工，还是心怀不满的员工破坏系统，反复发生的安全事件证明，破坏堡垒的最简单方法通常来自内部威胁。面对这种威胁，内部和外部的双向安全需求催生了用户和实体行为分析（UEBA）。在内部，传统的威胁防御方法是不够的。对于已经意识到问题紧迫性的企业来说，使用传统的安全技术并不能帮助他们有效地从内部解决安全问题。究其原因，传统的方法多是分散的、事后的，缺乏针对性。安全中最薄弱的环节是人。只有建立以用户为核心对象的分析体系，才能及时发现并终止内部威胁，防患于未然。从外部看，市场需求推动技术更新。UEBA作为一种先进的网络威胁检测手段，发展迅猛，甚至正在颠覆原有的市场格局。UEBA是一套基于大数据驱动，以用户为中心，关联实体资产，利用机器学习算法进行异常分析，发现并解决内部威胁的框架和系统。与关注安全事件的传统方法相比，UEBA更关心人。通过用户画像和资产画像，检测账号丢失、主机丢失、数据泄露、权限滥用等风险，高精度定位异常用户。1企业员工账户关联UEBA本质上是一种数据驱动的安全分析技术，需要收集大量广泛的用户行为数据。大数据时代，数据是一切分析的基础，少量或低质量的输入必然导致低价值的输出。但是，这并不代表数据越多越好，与场景无关的数据，采集过多只会增加系统的负担。因此，行为分析的基础是数据，数据采集的前提是场景。采集到的数据必须与特定场景相匹配才能进行分析。优质多样的数据是用户实体行为分析的核心。可用于用户实体行为分析的数据，包括安全日志、网络流量、威胁情报、身份访问相关日志等，尽可能访问与用户场景相关的数据，如VPN日志、OA日志、员工刷卡消费日志和门禁人脸识别日志等。这些数据大致可以分为三类：用户身份数据、实体身份数据和用户行为数据。用户身份数据分为两类：一类是真实身份数据，如人事部门提供的员工信息；另一种是虚拟身份数据，例如互联网上的用户注册信息。由于UEBA对高质量数据的依赖性很强，企业需要具备数据治理的基础能力和统一的数据字典。通过统一数据字典，可以统一不同日志的字段信息，进而关联不同日志的用户信息，通过真实身份与虚拟身份的关联，达到定位特定用户的目的。实体身份数据是用户在网络中的唯一标识，如IP地址、MAC地址等。用户行为数据的分类可分为网络行为信息和终端行为信息。2员工账户与实物资产关联员工账户与实物资产关联是用户身份数据与实体身份数据的关联，通过用户行为数据进行关联。例如，当用户登录VPN时，可以通过登录日志的用户信息相关字段定位到用户的身份信息。用户使用VPN访问公司内网，通过访问日志的目标地址信息相关字段，可以定位实物资产的身份信息，获取会话期间的终端日志信息，也可以实现员工账号之间的关联和实物资产。访问日志可以通过多种形式获取，可以是VPN设备自身记录的日志，也可以是其他安全设备记录的日志，如深度包检测（DeepPacketInspection，DPI）系统日志。所谓“深度”，就是相对于普通的消息分析层次而言。“普通包检测”只分析IP包第4层（物理层、数据链路层、网络层、传输层）以下的内容，包括源地址、目的地址、源端口、目的端口和协议类型。DPI除了前面4层的分析外，还增加了对应用层等其他层的分析，识别各种应用及其内容。DPI系统提供的审计信息、应用会话标识信息、应用会话流量统计、网络传输层流量统计、应用层流量统计等，可以极大丰富用户网络行为信息。可以通过端点检测和响应(EDR)系统获取终端日志。EDR日志可以帮助采集终端内存操作、磁盘操作、文件操作、系统调用、端口调用、网络操作、注册表操作等，通过分析进程行为、应用行为、服务行为等，完善用户终端行为信息。通过融合用户网络行为、终端行为等信息，完成用户与实体之间的关联，同时完整还原用户的网络会话和会话期间的用户行为，提供高质量的数据用于以后行为分析的材料。3基本特征提取用户行为特征提取是整个用户行为分析和建模的基础。需要结合业务的实际需求，找出相关的数据实体，以数据实体为中心，规范数据维度类型和关联关系，形成符合实际业务情况的模型。建模系统。一般的特征提取步骤包括用户数据与实体数据的分解与对应、实体间关系的分解、用户特征维度的分解、用户行为特征的提取。与算法层面的细化相比，有效提取数据特征往往能获得更直接的收益，可以展现数据的基本属性和业务逻辑的特征，甚至只需要使用简单的模型就可以取得很好的效果，同时冗余那些不合逻辑的特征不仅对建模没有用，甚至会降低分析的准确性和速度。在特征提取的设计中，专家知识是至关重要的。经验往往是取得成果的捷径，但在实际情况中，总会有一些不熟悉的场景，缺乏经验和知识。这时候，逻辑和方法论就显得更加普适了。通常使用四种通用维度来提取用户行为特征，分别是用户之间行为基线的比较、用户群体之间行为基线的比较以及基于用户行为基线比较提取离散数据特征。连续数据特征提取，用于用户自身行为的基线比较。第一类维度是行为基线的用户与用户比较。基于大多数用户行为都是正常的原则，通过比较用户之间的行为基线，可以发现少数偏离集群基线的用户。在某个特征维度上，这几个用户疑似异常。一个典型的事件是非工作时间的异常用户行为。通常情况下，员工对公司内部资源的访问应该是在工作时间，任何非工作时间的行为都应该受到关注。那么，如何定义非工作时间呢？不同行业的不同公司有不同的工作时间。国有企业与民营企业、传统行业与新兴行业的工作时间存在较大偏差。此外，同一领域的不同公司也有自己的加班文化。不排除有不少员工在考勤之外进行正常工作，通过VPN访问内网。因此，基于所有员工的历史行为记录，通过核密度估计（KDE）计算全天24小时各时间点用户访问资源的概率密度，概率低于动态的时间点阈值定义为非工作时间，从而将员工在非工作时间的行为提取为异常特征。图1是某公司员工账号24小时在线概率密度分布图，可以看出该账号在白天上班时间在线概率最高。当动态阈值为0.01时，可以看出公司员工在凌晨3点到6点在线的概率最小。凌晨0：00-3：00，公司部分员工使用VPN加班，可见公司加班严重，加班到凌晨一两点很正常。如果您直接定义从下午22:00开始的非工作时间。到早上6:00，会造成更多的误报，利用这样的特征可以自适应地学习到公司真正的非工作时间。图1用户账号24小时在线概率密度分布第二个维度是用户群体之间的行为基线对比。一般来说，公司内同一部门的相似职位的员工应该有相似的行为基线。技术部门和销售部门等不同部门之间存在较大差异，体现在网络行为和终端行为上。巨大差距。一个易于理解的事件是员工根据不同的角色属性访问统一资源定位器(URL)记录的集群。显然，具有相同角色属性或相同部门的员工应该有更多共同的访问对象和访问目的。以日志信息为基础，建立一段时间内频繁访问或业务相关的用户与URL之间的关联矩阵。矩阵元素可以是访问次数、访问时长或平均访问时长，使用欧式距离计算客户之间的距离，进行聚类操作。远离其角色所属部门组的用户可以标记为异常，根据用户与组中心的距离给出偏离度。根据异常发生的偏离程度，可以提取访问异常特征。偏离度的计算公式如下：式中，表示第i个用户的偏离度；表示第i个用户与集群中心的距离；表示同一组用户到聚类中心的平均距离。图2是技术部门和销售部门在来访次数和来访时长上的聚类图。圆圈代表技术部，三角形代表销售部，五角星代表这两个群体的聚类中心。异常对用户来说是显而易见的。如果没有用户组，则圆圈内的三角形视为普通用户；既然区分了用户群体进行聚类，那么可以清楚地看到，这些混在圆圈中的三角形距离实际的聚类中心较远，是异常的最大用户。图2用户群体聚类结果的第三个维度是基于用户自身行为基线对比的离散数据特征提取。通过学习大量的历史行为数据建立正常的用户基线后，可以针对偏离历史基线的用户行为提取异常特征。一个典型的事件是用户使用新的IP地址。一个没有出现在历史记录中的IP地址，意味着用户的活动基线已经偏离了原来的轨迹，当然也有可能是用户出差等客观原因造成的。然而，当结合新IP地址和新MAC地址等其他信息时，这意味着用户不仅更改了登录地址，还更改了登录设备，这加剧了可疑性。如果有其他信息辅助，或者不断出现用户的新IP地址，需要将此类现象归类为疑似异常。因此，通过对某些场景的假设，可以基于用户自身的行为基线提取离散数据的异常特征。第四类维度是基于用户自身行为基线对比的连续数据特征提取。通过学习用户连续数据的行为基线，可以针对偏离历史基线的用户行为提取异常特征。例如，用户正常的网络行为应该有进出流量在一定范围内波动，DPI系统可以帮助记录每个访问目标的流量情况。用户的进出流量是一个连续变量，应该满足一定的分布。假设用户的访问流量持续明显偏离历史分布，有理由怀疑用户的使用习惯发生了变化，需要引起注意。通过使用RPCA-SST和ARIMA等算法来检测此类连续时间序列数据中的异常，可以提取异常特征。图3是某用户6月份的流量时序图。实线为实际流量序列，阴影为序列异常检测算法拟合的正常范围。超出预测范围的点被标记为异常，如图3中的点。根据异常点的数量和异常程度，可以提取用户的异常特征。图3时间序列异常检测4基于集成学习的异常用户检测异常用户行为建模的三个要素是用户、实体和行为特征。通过访问关系的关联，将三大要素映射到核心用户行为。对第3章介绍的四类维度进行分解后，提取出数十种有效的用户行为特征。获取特征后，可以使用机器学习算法检测异常用户。由于内部攻击并不频繁发生，标记数据的稀缺性决定了UEBA在大多数情况下使用无监督学习算法。另一方面，不依赖先前的攻击知识允许系统发现罕见的和以前未发现的威胁。异常检测的主要任务是在正常用户数据集中提取小概率异常数据点。这些异常点并非随机偏差，而是存在故障、威胁、入侵等完全不同的机制。与大量的正常事件相比，这些异常事件的频率只是一小部分。有许多异常检测算法。虽然他们的期望是尽量把正常数据和异常数据分开，但是他们的原则是不一样的。对于不同的数据源，很难保证哪一种算法能够达到最好的效果。融合隔离森林、OneClassSVM和局部异常因子三种算法，综合识别和评估最有可能影响系统的各种异常用户。使用这三种算法进行异常检测，可以分别得到所有用户的异常评分。通过对三种算法的结果进行加权归一化，可以得到最终所有用户的异常评分排名。利用这些信息，企业可以按照一定的逻辑顺序，采取适当的对策来应对现有的威胁，并根据优先级实施补救措施。整个UEBA的核心系统框架如图4所示。每个算法为用户i计算一个独立的异常分数。孤立森林、OneClassSVM、局部异常因子算法分别记为，其对应的权重分别为，则最终的异常得分Score为：图4UEBA核心系统框架5实验结果分析及案例表1上图20个异常的用户评分和部分特征值，用户名经过Hash脱敏处理。一一核对排名靠前的异常用户。Top10用户中，确认存在第三方账号共享、主机中毒、恶意扫描、前员工潜入内网、敏感信息被非法拉取等问题。账户风险准确率达到90%。表1Top20异常用户评分及部分特征值用户446983413在异常排名中排名第一。经查看其异常特征，发现存在账号爆破、远程登录、端口扫描、从OA系统下载文件、传输流量过大等行为。最终，安全运维人员确定这是一起VPN账号被爆破导致的敏感信息泄露事件。它在时间轴上发生的顺序如图5所示。图5与用户446983413相关的事件时间线6结论本文介绍了UEBA（UserBehaviorEntityAnalysis）在企业异常用户检测中的应用。数据，将用户的行为特征提取并分布成四类维度，有效提取最能反映用户异常的数十种基本特征。三种异常检测算法通过集成学习方法对异常用户进行建模，通过异常打分定位最有可能的异常用户，并检查前10名异常用户，验证存在问题的准确率达到90%。企业最初部署UEBA系统时，用户账号基本没有标签。经过一段时间的使用和考察，用户账号的标签会逐渐积累起来，从而使整个系统的算法逐渐从无监督过渡到有监督，从而进一步提高准确率。通过这种正循环反馈强化，最终将建立起强大的安全线。

上一篇：市场调研：2023年区块链市场规模有望突破160亿美元

下一篇：加密Python源码方案PyArmor

基于机器学习的用户实体行为分析技术在账户异常检测中的应用_0相关文章