数据安全走在安防行业前沿,也是用户和市场关注的焦点。数据脱敏似乎是一个简单易用的技术领域。但是,不同的产品技术在性能和应用价值上存在着巨大的差异。随着我国信息化建设的不断推进,政府、企业乃至个人对数据安全的认识和重视程度不断提高。数据脱敏技术和产品作为数据安全保护的重要组成部分,作为常规手段被广泛应用于开发测试环境搭建、数据共享等典型场景中。作为一款具备日常工具属性的数据安全产品,数据脱敏产品除了能够帮助客户满足合规需求外,还必须能够有效解决客户敏感数据在分发和迁移过程中的安全痛点。这一点也尤为重要:对于复杂的业务系统数据,客户需要自动准确识别敏感数据,但由于业务系统中数据的复杂度往往很高,对敏感数据进行整理和判断会占用大量的人力资源;而业务系统数据的存储位置不仅是数据库,还有大量的结构化导出和备份文件;此时,如果缺乏足够自动化、智能化的敏感数据发现手段,很可能会出现误判、漏判等问题,导致数据库中出现数据。迁移期间发生敏感数据泄露。面对大规模数据脱敏场景,客户无论是选择快速搭建1:1模拟测试环境,还是维护开发测试环境所需的长期备份或实时数据,都提出了更高的要求和数据脱敏性能的挑战。也就是说,无论是全量脱敏还是增量脱敏,产品可能需要能够在几个小时内处理TB级的数据,并且数据处理过程要尽可能自动化,减少人工干预,从而整合进入真实场景的整个分发过程。从单纯的“使用效果”来看,数据脱敏需要实现的是将用户的真实数据迁移到新的环境中,并对敏感数据进行变形、遮蔽,从而达到“降低敏感度、消除识别度””的数据。的目标。然而,上述看似简单明了的要求,如果没有数据安全厂商专业复杂的技术支持,不仅无法为客户带来安全和便利,还会在项目交付和实施过程中带来一系列的问题和困扰!接下来,让那些看似简单的需求,我们可以清晰地看到背后的产品和技术需求的差异:1.数据“敏感性识别”能够发现目标环境中的敏感数据,是公认的数据脱敏前提。但该技术的应用除了考察数据脱敏产品的“发现性能和准确性”外,在实际使用过程中也隐藏了对产品更多“深度能力”的需求。这款数据脱敏产品是否真的适用于真实复杂的场景:1.混合内容的字段脱敏针对“多种内容混合”的字段,脱敏产品能否准确识别每一类数据?类型,并给出类型的百分比供用户参考和决定?以个人信息采集场景为例,其中一个典型的内容就是有人需要填写“联系方式”字段。但由于填写人员对采集要求的理解不同,所填写的信息可能包括手机号码、座机号码、地址等各种“个人信息”。并且此信息将存储在同一列中。如果只从数据特征入手,处理不当很容易将这个字段当作非敏感字段而忽略。因此,一个成熟的数据脱敏产品的发现机制,不仅要能够准确识别上述字段为敏感数据字段,还要能够根据采样数据,给出该字段发现的各类数据的比例;另外,在后续的数据脱敏操作环节中,也应该能够根据每一行数据的真实类型,对应的生成高度模拟的数据。2.无法识别敏感属性的字段脱敏对于无法从数据特征中识别的字段,在传统数据脱敏产品的发现逻辑中往往容易被忽略,导致敏感数据泄露;实际上,如果处理得当,可以通过以下两种方式来识别这类数据:第一,对于属于某一集合的数据,可以列举和汇总,可以将这些集合全部列出并保存为数据字典;当遇到这种“落入字典”的数据时,可以通过它来判断是否是敏感数据。比如中国的省市分区、企事业单位的行政管理部门、证券行业的上市公司代码,都可以使用这种逻辑来发现敏感数据。其次,对于具有特征字段名的数据,可以尝试根据字段名特征来发现敏感数据;虽然通过这种发现方式得到的结果是基于猜测,但可以减少客户大海捞针的工作量。例如:对于一个有密码的字段,单从数据内容的特征很难区分其敏感度,但是根据字段的名称,可以是“包含PWD或PASSWORD等字符串的列名”像这样使用。数据疑似歧视的依据。此外,在实际使用场景中,敏感数据的载体除了常见的数据库和结构化文件外,还包括保险行业大规模使用的xml保单文件;医疗行业常用html结构存储的病例和病历,临床医学用DICOM图像格式文件。此类文件中敏感信息的分析识别,不仅要求产品能够适配不同类型的文件格式,还需要具备更加智能的词法语义拆分、非结构化信息识别等能力。2、数据脱敏“高度模拟”能力“数据脱敏”似乎是描述数据脱敏产品“最基本的能力”的词,但在差异化的使用场景下对其能力有着不同的要求;例如客户对脱敏数据“仿真”质量的要求会随着脱敏数据的真实使用而得到验证,从而对数据脱敏产品的“高仿真”能力提出更多更高的要求,往往是包含以下难度等级:1.基于内容模拟的内容模拟要求脱敏后的数据在“数据类型、长度、格式、内部逻辑和语义”方面与原始数据保持一致,并且不会影响脱敏数据。敏感数据的使用场景会导致无法识别或模棱两可等问题。一般来说,市面上大部分脱敏产品都可以通过内置规则较好地满足上述对身份证、姓名、银行卡、手机号、地址等常用字段的基本模拟需求。然而,当客户面临多样化的使用场景时,若想实现脱敏数据的“高仿真”,则需要更灵活的产品技术能力提供支持。例如:在制造业中,需要对成品的批号进行脱敏处理,但批号是由生产日期、车间编号、流水线编号和操作人员相关信息组成的。这种行业级别的数据,显然已经超出了一般数据脱敏产品内置规则的默认范围。这时候,安全厂商的数据脱敏产品就需要能够对数据进行数字分片,并根据分片结果为每一分片配置脱敏规则。例如:对于日期段,可以使用标准的日期脱敏规则;对于车间编号、流水线编号等范围数据,需要能够基于数据字典进行脱敏处理;最后,每个段都要组合成一个完整的脱敏数据。2.区间和比例模拟高级数据模拟,除了模拟内容外,还要求脱敏后的整列数据满足一定的特性,避免这些脱敏后的数据分布到分析统计场景,因为Distortion降低了其用处。例如,金融行业的客户需要分析存款人的储蓄金额,但如果脱敏后的数据与原始数据相差过大,统计分析结果就会出现很大的失真。划分间隔时间不长,可以“就近随机”的方式完成脱敏;高校客户在计算生源分布比例时,即使得到“北京脱敏成上海,天津脱敏成江西”“省份”这样的非真实数据,也希望“同省学生数据的比例和城市”保持不变等。3.关联模拟关联模拟是对数据的进一步模拟,要求脱敏后的数据与行中的其他数据能保持一定的关系或计算关系,例如:当身份证号、出生日期、年龄这三个字段出现在同一张表中,存在“身份证中间8位数据与出生日期一致,当前年份减去出生日期为年龄”的逻辑关系。这种情况下,要求脱敏后的数据也保持这种关系,否则分发到开发测试场景后,极易导致业务系统出现逻辑异常;而在制造业中,一个表中往往有“产品单价”、“折扣率”、“实际价格”三个字段,存在“产品单价×折扣率=实际价格”的逻辑关系。本例,如果对价格数据进行脱敏,则要求脱敏后数据仍能保留上述操作关系,这就要求脱敏产品能够通过表达式准确处理该类行业的具体数据逻辑关系;再以证券行业为例,同一张表中往往有“证券编号、上市地区、公司名称”等对应数据,要求对证券编号或公司名称脱敏后,逻辑三者之间的关系仍然可以保持对应。为此,脱敏产品需要能够实现准确高效的关联模拟脱敏多列数据字典的化操作。综上所述,要想真正用模拟数据满足不同行业、不同场景客户的需求,不能用一句简单的“数据脱敏”来概括。更高的要求和测试。3、“高性能”的数据脱敏能力“脱敏性能”是客户极为关注的产品指标!在某些场景下,客户需要实现“一次性全脱敏,每日增量脱敏”的数据处理逻辑。要求脱敏产品必须在规定时间内处理前一天的增量数据,否则会直接影响脱敏目标环境中的数据一致性;而在其他场景下,数据脱敏的需求处于“随用随用”的客观节奏,从发出数据脱敏请求到数据脱敏环境搭建完成,留给相关人员很可能吃紧。无论面临上述哪一种场景,都在不断对大批量数据的脱敏性能提出新的要求和挑战。除了调度合理性和算法运行效率的常规提升外,影响数据脱敏效率提升的还有两个关键因素:一是利用数据库的特性完成数据抽取和入库逻辑。例如:用“数据库并行加载机制或加载机制”代替“通过JDBC读写数据”,这种方式会大大增加数据脱敏产品开发的复杂度,但同时也会带来大规模的数据脱敏性能改进。二是数据脱敏产品可以提供集群部署计算能力的并行扩展,从而通过计算节点数量的扩展,使数据脱敏产品的计算能力翻倍。【本文为专栏作者“安安牛”原创文章,转载请通过安安牛(微信公众号id:gooann-sectv)获得授权】点此查看作者更多好文
