当前位置: 首页 > 科技观察

SoReL-20M:2000万恶意软件样本数据集开源

时间:2023-03-19 23:07:35 科技观察

12月14日,网络安全公司Sophos和ReversingLabs联合发布了史上最大的恶意软件研究数据集——SoReL-20M,旨在构建有效的防御能力,Enhanced安全检测和响应能力。SoReL-20M是一个包含2000万个WindowsPE文件元数据、标签和特征的数据集,其中包含1000万个具有恶意软件移除特征的恶意软件样本,目的是为设计检测恶意软件的机器学习方法提供足够的数据集。同时,也有基于PyTorch和LightGBM的开源机器学习模型以这些数据为基准进行预训练。在自然语言处理和图像处理领域有很多公共数据集,例如MNIST、ImageNet、CIFAR-10、IMDBReviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同,标准化、标记的数据集对网络安全非常具有挑战性,因为其中包含大量个人身份信息、敏感网络基础设施数据、个人知识产权数据等,更不用说向未知的第三方提供恶意软件了派对。EMBER(EndgameMalwareBENchmarkforResearch)于2018年发布,是一个只有110万个恶意样本的开源恶意软件分类器,其功能只是单一标记的数据集(恶意软件或非恶意软件),这意味着它限制了范围的测试。SoReL-20M旨在通过2000万个PE恶意软件样本解决此问题,其中包含1000万个已删除恶意软件功能(不可执行)的恶意软件样本,以及1000万个非恶意软件提取的签名和元数据。此外,该方法使用基于机器学习的标记模型来生成人类可理解的语义描述,这些描述指定了恶意软件样本的重要特征。SoReL-20M的发布符合最近的行业趋势。10月20日,微软发布了AdversarialMachineLearningThreatMatrix,以帮助安全分析师检测、响应和修复针对机器学习系统的对抗性攻击。据ReversingLabs研究人员介绍,安全领域威胁情报共享的想法并不新鲜,但却非常关键。人工智能和机器学习已经成为检测新型恶意软件和针对性攻击软件的关键,其应用也越来越广泛。Github页面:https://github.com/sophos-ai/SOREL-20M关于SOREL-20M的论文SOREL-20M:ALargeScaleBenchmarkDatasetforMaliciousPEDetection下载地址:https://arxiv.org/abs/关于2012.07634的更多信息:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/本文翻译自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如有转载请注明出处。