二进制可视化与机器学习两大创新实践的结合在网络安全领域展现出巨大潜力,恶意软件和钓鱼网站检测是热点领域之一,本文我们将介绍这两项创新的进展应用程序。1.使用深度学习检测恶意软件检测恶意软件的传统方法是在文件中搜索恶意负载的已知签名。恶意软件检测器有一个病毒操作码序列或代码片段的数据库,它会搜索它检测到的新文件以查找是否存在这些签名。但恶意软件开发人员可以使用不同的技术轻松规避此类检测方法,例如混淆检测代码或使用多态性在运行时更改代码。虽然动态分析工具试图在运行时检测恶意行为,但它们速度很慢并且需要沙盒环境来测试可疑程序。近年来,研究人员尝试了一系列机器学习技术来检测恶意软件。这些机器学习模型在恶意软件检测的某些领域取得了进展,例如代码混淆。但机器学习也面临着新的挑战,包括需要学习过多的特征和分析目标样本的虚拟环境。二进制可视化可以通过将其转化为计算机视觉问题来重新定义恶意软件检测。在这种方法中,文件通过将二进制和ASCII值转换为颜色代码的算法来运行。研究人员表明,当使用这种方法来可视化良性和恶意文件时,这些文件往往包含各种类型的ASCII字符,呈现为彩色图像,两者可以分开,而良性文件具有更清晰的图片和值分布。企业可以利用此检测模型进行恶意文件检测。研究人员创建了一个二进制文件数据集,可视化包含各种恶意负载(病毒、蠕虫、木马、rootkit等)和文件类型(.exe、.doc、.pdf、.txt等)的良性和恶意文件。然后,研究人员使用这些图像来训练分类器神经网络。他们使用的架构是自组织增量神经网络(SOINN),速度很快,特别擅长处理噪声数据。他们还使用图像预处理技术将二值图像缩减为1,024维特征向量,这使得学习输入数据中的模式变得更容易且计算效率更高。由此产生的神经网络足够高效,可以在配备英特尔酷睿i5处理器的个人工作站上在15秒内计算出包含4,000个样本的训练数据集。研究人员的实验表明,深度学习模型特别擅长检测.doc和.pdf文件中的恶意软件,这些文件是勒索软件攻击的首选载体。研究人员建议,如果将模型调整为将文件类型作为其学习维度之一,则可以提高模型的性能。总体而言,该算法实现了约74%的平均检测率。2.用深度学习检测钓鱼网站钓鱼攻击正成为组织和个人面临的一个日益严重的问题。许多网络钓鱼攻击会诱骗受害者点击指向伪装成合法服务的恶意网站的链接,他们最终会在其中输入敏感信息,例如凭据或财务信息。传统的钓鱼网站检测方法主要是将恶意域名列入黑名单或将安全域名列入白名单。前一种方法对不在列表中的新型钓鱼站点没有筛选能力,而后一种方法限制太多,需要付出很多努力才能提供对所有安全域的访问。2020年,研究人员开发了一种使用二进制可视化和深度学习检测网络钓鱼网站的新方法。该技术使用二进制可视化库将网站标记和源代码转换为颜色值。与良性和恶意应用程序文件的情况一样,在可视化网站时,会出现区分安全网站和恶意网站的不同模式。“合法网站具有更详细的RGB值,因为它将使用许可证、超链接和详细数据输入表格中的其他字符构建,”研究人员写道。“虽然钓鱼网站通常包含单个CSS引用或不包含CSS引用、多个图像而不是表单和一个没有安全脚本的登录表单。这将在抓取时创建更小的数据输入字符串。”研究人员创建了代表合法和恶意网站代码的图像数据集,并用它来训练分类机器学习模型。他们使用的架构是MobileNet,这是一种轻量级卷积神经网络(CNN),经过优化可在用户设备而非大容量云服务器上运行。CNN特别适合计算机视觉任务,包括图像分类和对象检测。一旦模型经过训练,它就会被插入到网络钓鱼检测工具中。当用户偶然发现一个新网站时,它首先会检查该URL是否包含在其恶意域数据库中。如果是新域名,则通过可视化算法进行转换,并通过神经网络运行以检查恶意网站的模式。这种两步架构使用黑名单数据库和基于神经网络的钓鱼检测技术的智能检测确保了系统的速度。研究人员的实验表明,该技术可以检测钓鱼网站,准确率高达94%。此外,研究人员正在探索使用二进制可视化和机器学习来检测物联网网络中的恶意软件流量。二进制可视化表明,只要有足够的创造力和严谨性,我们就可以找到解决旧问题的新方法。【本文为专栏作者“安安牛”原创文章,转载请通过安安牛(微信公众号id:gooann-sectv)获得授权】点此查看作者更多好文
