当前位置: 首页 > 科技观察

数学和数据科学:入侵检测中的新秘密武器

时间:2023-03-17 23:20:37 科技观察

查看日志文件以寻找安全事件痕迹的日子已经一去不复返了。不要误会我的意思,这并不是说日志文件不再重要了。日志文件仍然非常有用,是证明安全事件及其原因的关键,也是取证和缓解工作流的必需品。但在每时每刻都在产生海量数据的时代,人工在海量日志中筛选发现问题太费时间了。提供现代服务所需的数字供应链的复杂互连性和不透明性进一步加剧了这个问题。对于大多数人来说,被高中和大学的数学课(比如微积分)欺负,难免会问:“我什么时候才能在现实生活中用到这个东西?”但对于踏入信息安全世界的人类来说,这个问题的答案是“现在”。现在是每个行业借鉴金融服务行业的数学和数据科学来评估数据泄露可能性的时候了。特别是,安全团队可以利用时间序列数据构建描述用户行为的数学模型,然后查找异常情况并确定出现问题的可能性。为了改进事件检测,企业可以应用数学和数据科学的以下元素和基本概念:导数“导数”一词听起来很花哨,但它实际上指的是相对于时间的变化率。在安全检测方面,单位时间(每小时、每天等)身份验证失败次数的突然增加是一个值得关注的衍生品。例如,如果身份验证失败的次数从每天5到10次激增到每天超过100次,则表明有人试图闯入(最好的情况)或已经成功(最坏的情况)。在这种情况下,您应该查看函数的导数,而不是数量。数学建模安全领域的另一个有用概念是资产行为的数学建模。例如,将软件即服务产品或平台视为资产。我们如何确定后续异常识别的基线标准?如果使用GitHub作为代码仓库,可以通过观察一些关键的运营指标随时间的变化来对GitHub进行建模,比如“克隆”、“合并”、“删除”、“添加用户”、“生成访问令牌”,等。基数这些示例还包括基数的概念——集合中元素的数量。它可能是来自已知设备的登录,我们在其中寻找某些关键操作数量的变化,表明潜在的妥协指标。但要获得这些信息,我们首先必须“学习”。举个最基本的例子,假设CEO每天使用三台设备登录,手机、平板、笔记本电脑。如果这个数字增加到四或五个,则可能是首席执行官开始使用新设备(待确认)。但如果这个数字突然大幅增加,遭遇入侵的概率就非常高了。许多企业和安全团队正在以老式的方式进行事件检测,大规模收集日志并搜索模式或正则表达式,但这显然不足以应对当前的威胁形势。当然,日志仍然是数字取证不可或缺的一部分。但是,如果要限制曝光窗口并缩短检测时间,以便更快地启动补救活动,那么将时间序列数据与数学和数据科学原理相结合就显得尤为重要。