当前位置: 首页 > 科技观察

数据安全事件频发,数据脱敏技术的发展趋势如何?

时间:2023-03-19 18:30:44 科技观察

1 引言当今大数据时代,各种数据分析应用技术已广泛应用于国家治理、企业运营、个人日常生活等各个方面。数据已经成为当今最流行的基础资源,因此对数据安全的重视程度也在不断上升,成为相当受关注的话题。近年来,全球数据安全事件频发,尤其是数据泄露事件。根据RiskBasedSecurity2019年下半年发布的数据,2019年上半年数据泄露事件超过3800起,与2018年同期数据相比增长了54%。数据泄露通常也会带来显性或隐性的经济损失。据安全研究中心PonemonInstitute和IBMSecurity联合发布的《2019年数据泄露成本报告》,超过100万条记录的泄露预计将给企业带来4200万美元,当泄露的记录超过5000万条时,预计损失将达到3.88亿美元[1]。安全事件的不断爆发,以及相应事件可能造成的潜在重大危害和巨大损失,不断带动国家、行业、企业等各个层面更加重视数据安全,并开始着手从法规、标准、制度等方面入手。移动。欧盟于2018年颁布了《通用数据保护条例》(GDPR),规定了企业如何收集、使用和处理欧盟公民的个人数据。2019年5月28日,国家互联网信息办公室发布的?明确要求对个人信息的存储和提供进行匿名化处理,有效降低数据应用中个人信息泄露的风险[2]。2 数据脱敏技术数据脱敏技术是一种数据处理技术,可以通过数据变形对敏感数据进行处理,从而降低数据的敏感程度。适当使用数据脱敏技术,可以有效减少敏感数据在采集、传输、使用过程中的暴露,降低敏感数据泄露的风险,将数据泄露带来的危害降到最低。根据不同的数据脱敏规则和算法,可以采用多种数据变形方法对特定的敏感数据进行组合处理,不同程度地降低数据的敏感度,并在更严格的脱敏规则和算法下实现匿名化。数据脱敏技术本质上是对数据的一种变形过程。因此,数据脱敏技术的另一大特点是可以在一定程度上保持数据原有的一些特征,使得脱敏后的数据仍然可用。对整个数据集采用统一的脱敏算法,可以保证数据集的整体统计特征和数据唯一性不变,同时降低数据的敏感度,使其能够持续满足相关性分析、机器学习的要求、即时查询等应用场景需求。2.1 数据脱敏算法和匿名化方法在数据脱敏技术的实际应用中,往往涉及三个不同的概念:脱敏算法、脱敏规则和脱敏策略。数据脱敏技术的核心是通过对敏感数据进行变形来降低其敏感度。其中,脱敏过程中使用的具体数据变形方法是脱敏算法。在原有脱敏算法的基础上,对特定的敏感数据应用一种或多种脱敏算法的组合,形成脱敏规则。在特定的业务场景中,根据不同的业务场景选择一系列特定的脱敏规则,可以称为脱敏策略。对于数据脱敏技术以及数据脱敏的应用和工具,数据脱敏算法是核心能力。常见的脱敏算法包括加密、屏蔽、替换和混淆。除了上面提到的基本脱敏算法,为了达到更高程度的敏感信息保护能力,尤其是达到一定程度的敏感度降低,还有更复杂的整体数据集脱敏策略。例如,在个人信息保护场景下的匿名化需求下,需要使用k-匿名化、l-多样化、t-接近性等匿名化方式。k-匿名化方法要求数据集中的每条记录必须至少与其他k-1条记录不可区分,即数据集中敏感属性的每种组合必须同时出现在至少k条记录中,并且k个不能区分的记录组成一个等价类[3]。l多样化是基于k-匿名化方法对敏感属性的扩展。该方法要求数据集匿名化时,每个等价类中所有记录的敏感属性至少包含l个不同的敏感属性值。[4].t-proximity方法要求敏感属性值在所有等价类中的分布尽可能接近属性在整个数据集中的全局分布,这样才能抵抗偏斜攻击[5]。2.2 数据脱敏技术分类目前的数据脱敏技术主要分为静态数据脱敏和动态数据脱敏。不同的。2.2.1静态数据脱敏静态数据脱敏的主要目标是实现大批量完整数据集的一次性整体脱敏处理。一般会根据既定的数据脱敏规则,采用类似ETL技术的处理方法,对数据集进行统一的形变变换过程。静态脱敏在按照脱敏规则降低数据敏感度的同时,可以最大限度地减少对数据集原有内在数据相关性、统计特征等可挖掘信息的破坏,保留更多有价值的信息。静态屏蔽通常用于生产环境中的敏感数据需要用于开发、测试或出站的场景。2.2.2动态数据脱敏动态数据脱敏的主要目标是对外部应用访问的敏感数据进行实时脱敏处理,并立即返回处理后的结果,一般通过类似网络代理的中间件技术,根据脱敏规则立即返回对外部访问应用程序和返回结果进行变形和转换处理。动态脱敏在根据脱敏规则降低数据敏感度的同时,可以最大限度地减少数据需求方获取脱敏数据的延迟。通过设计和实现合适的脱敏规则,甚至可以通过请求传递实时数据。Access返回脱敏数据。动态数据屏蔽通常用于敏感数据需要对外提供访问查询服务的场景。3 数据脱敏技术应用现状数据脱敏技术的应用近年来呈上升趋势。根据Gartner的《数据脱敏市场指南》,2017年使用数据脱敏或其他类似去标识化技术的公司比例为15%,2018年增加到20%,预计2022年将达到50%[6]。3.1数据脱敏技术在行业应用现状在实际应用中,数据脱敏技术通常应用于一些涉及个人隐私数据存储和应用的行业,因此在政务、金融、电信、互联网和其他行业。数据脱敏技术的应用目的主要包括两个方面:一是以保护敏感数据安全,实现合法合规为主要目的;二是在实现第一目标的前提下,尽可能保证数据的可用性和可挖掘价值。在大数据时代,大多数涉及个人隐私数据存储和使用的领域都不可避免地需要面对数据安全和合规问题。具体来说,在政务领域,由于政务数据平台往往持有大量身份信息、户籍信息等极其敏感的个人信息,需要对政务的全生命周期进行数据脱敏和同步实施。数据的收集、传输、应用和归档。其他数据安全保护手段;在金融、电信等重点领域,电信客户的手机号码、通话记录、网络流量等信息,以及金融客户的个人账户信息、交易记录等信息,均属于重要敏感信息,面临严格的行业监管。规定。监管要求,采用数据脱敏技术是实现合规的首选;在数据应用最为广泛的互联网领域,使用了大量可能涉及个人隐私的用户行为数据。从避免违规带来的额外成本的角度来看,使用数据脱敏是敏感数据的重要前提步骤。在大数据分析应用领域,企业需要在保证数据安全合规的前提下,维护数据的可用性和增值性。具体来说,在金融和电信领域,征信、反欺诈、精准营销等应用场景高度依赖于用户行为数据等隐私相关数据的分析和挖掘。在互联网领域,用户行为数据已经成为企业引导业务收入增长的重要资源。用户行为分析、个性化推荐、精准营销等应用方向已经成为大多数互联网公司普遍的服务方式,相应的分析和挖掘应用也在所难免。可见,在实现数据安全合规的同时,能够将对数据可用性和可挖掘价值的损害降到最低的数据脱敏技术是目前最好的选择,也在各个行业得到实践实践。3.2 数据脱敏技术供给现状目前,已有多家企业完成或正在进行数据脱敏技术的研发。总体而言,数据脱敏技术供应商可分为信息安全服务商、自研自用企业和通用数据脱敏工具开发商。3.2.1 信息安全服务商通常以提供完整的安全服务系统解决方案的形式服务于客户。为了保证整个安全体系的完整性,数据脱敏技术往往被视为重要的技术环节。或者以集成第三方企业产品的形式包含在提供的服务系统或解决方案中,一般服务于金融、电信等行业需要构建整体数据安全体系的企业。3.2.2 自研自用企业主要包括运营商、通信技术服务商、大型互联网企业等具有一定敏感数据保护需求特征的企业。研发实力,定制一款适合自己的数据脱敏工具更经济高效。3.2.3 通用数据脱敏工具开发商致力于通用数据脱敏工具研发的企业,通常从某类企业的需求出发,开发满足基础数据脱敏需求的工具产品,然后根据针对市场情况,产品功能逐步完善,盈利形式包括直接销售给需求企业,或与安全服务商合作,纳入其提供的数据安全解决方案。从数据脱敏技术的供给类型来看,目前的静态脱敏技术已经比较成熟,大部分数据脱敏技术工具都可以提供比较完备的静态脱敏能力。差异主要体现在易用性和自动化方面。在动态脱敏方面,还处于发展的初级阶段。在动态脱敏的实现中,一个简单的实现是在请求目标数据后进行数据脱敏。这种实现实际上还是让敏感数据从数据源传输到外部;另一个相对复杂的实现方案是在数据请求和返回的过程中进行干预。例如查询敏感数据所在的数据库时,分析查询SQL,识别出敏感数据列,修改查询SQL,直接返回脱敏后的查询结果。.一方面,这种实现方式需要分析查询过程中涉及的数据源协议,难度较大,在非开源商业数据源中存在一定的法律风险;另一方面,由于查询协议存在相应的差距。这种动态脱敏的实现方式很难一概而论。它只能针对所需的数据源类型进行定制。当需要的数据源类型较多时,费时费力。由于以上原因,目前的动态退敏技术仍有改进的空间,其实际应用远不及静态退敏技术。产品也是层出不穷,由于产品形态各异,供需对接还存在一些问题。目前,数据脱敏工具产品一般通过自我声明的方式告知客户产品的基本能力,但产品能力、脱敏程度、脱敏过程的安全性等方面缺乏证明方法,导致企业难以获得。采购时区分产品能力是否满足自身功能需求,脱敏过程能否保证脱敏过程中不存在泄露风险,产品形态和脱敏能力是否满足自身业务场景。解决这些问题的一个途径是推进数据脱敏工具产品相关的标准化工作,根据行业需求和产品特点,制定相关技术、流程等标准,通过权威第三方机构选择符合一定程度规范和标准的产品。方产品评价与评价。数据脱敏工具可以有效打消需求方的诸多疑虑,因此相关的标准化工作和基于标准的评估评价工作值得关注。在规范数据脱敏工具产品的过程中,除了数据脱敏技术的核心能力外,还应关注工具应具备的其他相关能力,包括敏感数据识别能力、数据源管理能力、工具运维能力等。维护管理。能力、安全审计能力、脱敏算法、规则和策略管理能力。在核心能力上,可以分为静态脱敏能力和动态脱敏能力两部分;在静态脱敏能力方面,重点关注与脱敏任务相关的各种能力;在动态脱敏能力方面,重点关注敏感数据访问的反规避能力。数据脱敏工具的性能除了考虑基本功能外,还可以从静态脱敏的数据吞吐量和动态脱敏的并发数、响应延迟等方面来评价。4 数据脱敏技术发展趋势数据脱敏技术在一些领域已经成熟应用,但是随着脱敏需求的不断发展变化,仍然存在着不断优化演进的方向。后续数据脱敏技术的发展主要呈现四个趋势。4.1 数据脱敏性能提升数据脱敏要求的第一个重要变化是数据量的不断增加。随着信息技术的逐步深入应用,各企业组织可以保存和使用的数据量将呈爆发式增长,需要脱敏的数据量也将同步增加;调整后的数据应用需要越来越多的实时数据。在涉及敏感数据的实时应用中,对大量数据立即或短时间内进行脱敏的需求会逐渐增加。数据量和响应时间方面的需求变化,指向了更高性能数据脱敏技术的发展方向。4.2 非结构化数据脱敏数据脱敏要求的第二个变化来自于大数据时代的数据大多是非结构化的。与存储在关系型数据库中的传统结构化数据相比,如今存储和应用的数据中,图片、视频、音频、文本等非结构化数据所占的比例不断增加。在众多智能数据应用中,涉及个人隐私的非结构化数据的使用和挖掘越来越常态化。主要针对结构化数据的脱敏处理技术将远远不能满足需求。脱敏治疗技术将成为未来重点发展方向。4.3 数据智能脱敏第三个数据脱敏需求的变化,来源于数据量和数据类型的增加。当数据的维度和类型不断扩大时,通过用户指定的数据脱敏策略,手动绑定待脱敏数据和脱敏规则和算法,效率会非常低下。用户的手动工作量需要进一步减少,因此一些公司在脱敏工具产品中实现了自动识别和发现敏感数据等便捷功能。未来,通过机器学习等技术的应用,结合各种数据分类分级规则和已经实际使用过的数据脱敏策略和规则,自动实时敏感数据发现和自动脱敏等智能数据脱敏技术将实现规则匹配。人们期待的发展方向。4.4 数据脱敏技术的合规应用数据脱敏要求的第四个变化来自于相关政策的不断收紧。随着国内外个人隐私数据保护相关法律法规的不断出台,近年来数据泄露事件频发,以及对违规使用用户隐私数据的企业的处罚,共同促使企业重视数据合规作为当前的首要任务。后续对企业使用个人信息的规定将变得更加复杂和针对性强,企业合规的人力实施成本将不断上升。通过将数据脱敏技术与企业各项相关法律法规及相关业务相结合,使企业业务流程中敏感数据的使用处处合规,形成直接实现业务合规的数据脱敏产品,将有效提高这一点情况。一个合规问题,后续值得探讨。5 结语本文对数据脱敏技术的应用背景、技术发展现状、应用及产品现状进行了梳理和阐述,并在参考当前行业应用情况的前提下总结了数据脱敏技术未来的四大发展趋势.同时,从数据脱敏工具产品的角度,总结了目前进行数据脱敏技术研发的三类供应商。标准化工作的主要方向。数据脱敏技术永远是未来非常主流和常用的数据安全技术。随着新的、更复杂的脱敏需求不断涌现,数据脱敏技术也将不断演进发展,数据脱敏工具的市场也将更加广阔。因此,相应的标准化工作将更加重要,成为技术不断完善的同时不可忽视的配套工作。