当前位置: 首页 > 科技观察

用于安全的机器学习是一个美丽的谎言?_0

时间:2023-03-21 16:37:20 科技观察

翻译|布加迪评论家|孙淑娟机器学习(ML)并不是一门神奇的技术。一般来说,ML适合用大数据集解决狭窄的问题,感兴趣的模式是高度可重复或可预测的。大多数安全问题不需要机器学习,也不会从中受益。许多专家,包括谷歌的专家,都建议在解决复杂问题时,应该在用尽所有其他方法后尝试机器学习。ML结合了广泛的统计技术:ML允许我们训练计算机来估计问题的答案,即使我们事先没有编写正确的答案。如果使用设计良好的ML系统来解决正确类型的问题,它可以挖掘出否则无法获得的见解。每个组织的IT环境都有不同的目的、架构、优先级和风险承受能力。不可能创建广泛支持所有场景中安全用例的算法、ML或其他产品。这就是为什么ML在安全领域的大多数成功应用都结合了多种方法来解决一个非常具体的问题。典型示例包括垃圾邮件过滤器、DDoS或机器人缓解以及恶意软件检测。1.GarbageinGarbageoutML中最大的挑战是拥有相关且可用的数据来解决实际问题。对于受监督的ML,您需要一个大型的、正确标记的数据集。例如,要构建识别猫照片的模型,您需要在许多标记为“cat”的猫照片和许多标记为“notcat”的非猫照片上训练模型。如果您没有足够的照片或者它们没有准确标记,模型就不会很好。在安全领域,一个著名的受监督ML用例是无特征的恶意软件检测。许多端点保护平台(EPP)供应商使用ML来标记大量恶意和良性样本,以根据“恶意软件的外观”训练模型。这些模型可以正确识别规避突变恶意软件和其他技巧(被篡改以逃避签名检测方法但仍然是恶意的文件)。ML不是匹配特征,而是使用另一组特征来预测恶意内容,通常会捕获基于特征的方法遗漏的恶意软件。由于ML模型是概率性的,因此需要权衡取舍。ML可以捕获签名方法遗漏的恶意软件,但它也可能遗漏签名方法捕获的恶意软件。这就是为什么现代EPP工具使用混合方法,结合ML和基于特征的技术,以实现最大的保护范围。2.误报问题即使使用设计良好的模型,ML在解释输出时也会带来一些额外的挑战,包括:结果是一个概率。ML模型的输出是可能性。如果您的模型旨在识别猫,您会得到类似“80%的可能性这东西是猫”的信息。这种不确定性是ML系统的固有特征,会使结果难以解释。80%的机会cat是否足够准确?该模型无法调整,至少不能由最终用户调整。为了处理概率结果,工具可以将它们处理为具有供应商设置的阈值的二进制结果。例如,猫识别模型可能会以>90%的概率报告任何“猫”是猫。您的组织对此的容忍度可能高于或低于供应商设置的容忍度。漏报(FN),即未能检测到真正的恶意内容,是ML模型的主要缺点,尤其是那些调整不佳的模型。我们不喜欢误报(FP),因为它们是在浪费时间。但PF率和FN率之间存在固有的权衡。调整ML模型以优化此权衡,优先考虑FP率-FN率的“最佳”平衡。然而,“正确”的平衡因组织而异,具体取决于它们各自的威胁和风险评估。使用基于ML的产品时,您必须相信供应商会为您选择合适的阈值。警报分类的上下文不足。ML的部分魔力在于从数据集中提取显着的预测性但任意的“特征”。想象一下,识别一只猫恰好与天气高度相关。没有人会这样推理。但这就是ML的意义所在——找到我们无法通过其他方式找到的模式,并大规模地这样做。即使预测的原因可以暴露给用户,它通常对警报分类或事件响应情况没有帮助。这是由于最终定义ML系统优化预测能力决策的“特征”。3.任何其他名称的“统计”方法听起来都不错吗?除了ML的优点和缺点之外,还有一个警告:并非所有“ML”都是真正的ML。统计方法可以为您提供有关数据的一些结论。ML根据您拥有的数据对您没有的数据进行预测。营销人员热衷于大肆宣传“ML”和“人工智能”,声称这是某种现代、创新、先进的技术产品。然而,人们往往很少考虑该技术是否使用机器学习,更不用说机器学习是否是正确的方法了。4.ML可以检测恶意内容吗?当“恶意内容”定义明确和定义狭窄时,ML可以检测到它。它还可以检测高度可预测系统中与预期行为的偏差。环境越稳定,ML就越有可能正确识别异常。但并非每个异常都是恶意的,并且操作员并不总是有足够的上下文来响应。机器学习的力量在于增强而不是取代现有的方法、系统和团队,以实现最佳覆盖率和效率。原文链接:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security