当前位置: 首页 > 科技观察

一文读懂数据内容识别核心技术

时间:2023-03-12 04:16:33 科技观察

小王的公司因为办公文件通过网络出口泄露到互联网上,被相关部门通报...去年,单位刚部署了一个具有该功能的设备在网络出口拦截敏感文件,为什么还会这样?那么我们就从数据防泄露的通用技术说起。数据丢失防护常用技术为了防止数据丢失,必须准确检测所有类型的机密数据,无论是在何处存储、复制或传输。如果没有准确的检测,数据安全系统可能会产生许多误报(消息或文件未被识别为违规)和误报(违反策略的消息或文件未被识别为违规)。误报会耗尽进一步调查和解决明显事件所需的时间和资源。漏报可能掩盖安全漏洞,导致数据丢失、潜在的财务损失、法律风险以及对组织声誉的损害。小王单位的事情,很明显是疏忽造成的。因此,需要准确的检测技术作保障。为了保证最高的准确性,通用数据防泄露DLP系统采用了三种基本检测技术和三种高级检测技术。1、基础检测技术基础检测技术通常有正则表达式检测(标识符)、关键词及关键词对检测、文档属性检测三种方法。基本检测方法是使用常规的检测技术进行内容搜索和匹配,比较常见的是正则表达式和关键词。这两种方法都可以检测出明确的敏感信息内容;文档属性检测主要是针对文档类型,检测文档的大小和名称,根据文件格式来检测文档的类型,而不是简单的根据后缀名检测。对于修改后缀名的场景,文件类型检测可以准确检测出检测到的文件。类型方面,绿盟科技数据防泄露DLP系统目前支持100多种标准文件类型,并可通过自定义特征识别特殊文件类型格式的文档。2、高级检测技术高级检测技术也有三种方法,精确数据比对(EDM)、指纹文件比对(IDM)、向量分类比对(SVM)。EDM用于保护数据,通常采用结构化格式,例如客户或员工数据库记录。IDM和SVM用于保护非结构化数据,例如MicrosoftWord或PowerPoint文档。对于EDM、IDM、SVM,企业会先识别出敏感数据,然后再通过DLP识别其特征,进行准确、持续的检测。签名过程涉及DLP访问和检索文本和数据,对其进行规范化,并使用不可逆的加扰对其进行保护。DLP检测基于实际的机密内容,而不是文件本身。因此,DLP不仅可以检测敏感数据的检索项或衍生项,还可以识别文件格式与特征信息不同的敏感数据。例如,如果识别出机密的MicrosoftWord文档,当通过电子邮件将相同内容作为PDF附件提交时,DLP可以准确地检测到它。(1)精确数据匹配精确数据匹配(EDM)保护客户和员工数据,以及通常存储在数据库中的其他结构化数据。例如,客户可能会编写有关使用EDM检测的策略来查找消息中出现的任意三个“姓名”、“安全号码”、“银行帐号”或“电话号码”并将它们映射到记录在客户数据库中。EDM允许基于特定数据列中数据列的任意组合进行检测;也就是说,检测特定记录中的M个字段中的N个。它可以在“值组”或一组指定的数据类型上触发;例如,姓名和身份证号两个字段的组合是可以的,但是姓名和手机号码两个字段的组合是不可接受的。由于为每个数据单元存储了单独的扰码号,因此只有来自单个列的映射数据可以触发正在寻找不同数据组合的检测策略。比如有一个EDM策略要求“姓名+身份证号+手机号”的组合,那么“张三”+“13333333333”“110001198107011533”就可以触发这个策略,但是连“李四”都在同样的数据库,“lisi”+“13333333333”“110001198107011533”也不能触发这个策略。EDM还支持邻近逻辑以减少可??能的误报情况。对于在检测期间处理的自由格式文本,单个特征列中的所有数据都必须在可配置范围内具有可配置的字数,才能被视为匹配。例如,默认情况下,在检测到的邮件正文中,“张三”+“13333333333”和“110001198107011533”各自的字数必须在选择的范围内,才会出现匹配项。对于带有表格数据的文本(如Excel电子表格),单个特征列中的所有数据必须位于表格文本的同一行才能被视为匹配,从而减少总体误报。(2)指纹文档匹配指纹文档匹配(IDM)确保准确检测以文档形式存储的非结构化数据,例如MicrosoftWord和PowerPoint文件、PDF文档、财务、并购文档以及其他敏感或专有信息。IDM创建文档指纹签名以检测原始文档、草稿或受保护文档的不同版本的检索部分。IDM首先需要对敏感文档进行学习和训练。当获取到包含敏感内容的文档时,IDM利用语义分析技术对词进行分词,然后进行语义分析,对需要学习和训练的敏感信息文档提出指纹模型,然后使用相同的方法抓取文档的指纹对文档或内容进行检测,将获取的指纹与训练后的指纹进行比对,根据预设的相似度判断检测到的文档是否为敏感信息文档。这种方法使IDM具有非常高的准确性和可扩展性。(3)向量机分类比较支持向量机(SVM)由Vapnik等人提出。1995年。后来,随着统计理论的发展,支持向量机逐渐引起了各个领域研究人员的关注,并在短时间内得到了广泛的应用。支持向量机基于统计学习理论的VC维理论和结构风险最小化原理,利用有限样本提供的信息,在模型复杂度和学习能力之间寻找最佳折衷。以获得最佳的泛化能力。SVM的基本思想是将训练数据非线性映射到一个更高维的特征空间(希尔伯特空间),并在这个高维特征空间中找到一个超平面,使正例和负例之间的隔离边最大化.SVM的出现有效解决了传统神经网络的结果选择问题、局部最小值、过拟合等问题。并且在小样本、非线性、高维数据等机器学习问题中表现出许多显着的性质,被广泛应用于模式识别、数据挖掘等领域。SVM比较算法适用于具有细微特征或难以描述的数据,例如财务报告和源代码。在使用过程中,文档根据内容进行细分和分类。每种类型的文档集合都具有属于该类别的含义。通过SVM比对,判断检测到的文档属于哪个类别,得到该类文档的权限和策略。.同时,根据SVM的特点,可以将终端或服务器上的文档按照分类的意义进行分类查找。IDM与SVM的区别在于IDM是将待检测文件的指纹与训练模型中的每个文件进行比较;而SVM是通过对属于某一类训练集向量空间的待检测文件进行向量化而建立的。可见,基本的识别和检测技术不足以防止数据泄露。随着大数据、云计算、移动互联网的高度融合,对数据安全技术提出了更高的要求,泄露将呈现高发趋势。选择一款强大可靠的数据防泄露系统,保护企业核心数据,降低泄露风险尤为重要。【本文为专栏作者《NSFO科技博客》原创稿件,转载请联系原作者获得授权】点此查看该作者更多好文