当前位置: 首页 > 科技观察

大数据生命周期安全与隐私篇

时间:2023-03-18 01:26:32 科技观察

近年来,大数据引起了产业界、科技界、媒体界和政府部门的高度关注。大数据本质上是一种基于数据处理的技术。分析提取有价值的信息并预测未来的变化,被认为是推动商业和技术创新以及经济增长的新能源。大数据在各个领域具有诸多优势和潜力,但也存在诸多问题和挑战,如隐私保护、伦理问题、数据安全管理方式、个人信息保护和数据滥用等[1],尤其包括海量数据隐私信息共享数据在互联网和开放环境中的买卖和利用给人们带来了巨大的损失,大数据安全保护工作迫在眉睫。本文将分为两部分,为读者讲解大数据生命周期各个阶段面临的风险和各种安全防护技术。第一部分主要介绍目前国际标准化组织制定的安全标准以及大数据生命周期五个阶段(收集、存储、使用、利用和销毁)面临的风险。阶段风险处理技术。1数据收集数据收集者可能会未经授权收集数据,侵犯数据提供者的主权,尤其是隐私数据需要安全管理措施,一般对隐私数据采取访问控制。此外,还需要采取安全措施来防止敏感数据泄露,例如对某些数据字段进行加密。目前,同态加密技术得到广泛应用。1.1敏感数据访问控制保护所有数据的成本很高,敏感数据保护是大数据安全管理的核心目标之一。敏感数据,如财务数据、供应链数据、客户票和验证票等。自主门禁系统在大数据安全方面存在理论缺陷。例如,用户对某些数据拥有全部控制权,这就违反了“最小权限原则”,从而给大数据系统带来安全风险。由于数据本身的价值和敏感性不同,需要建立不同的敏感数据集。根据《信息安全技术 网络安全等级保护基本要求》(GB/T22239-2019),需要建立强制访问控制系统来管理敏感数据。在强制访问控制下,系统为主体和客体分配了不同的安全属性,在系统安全策略改变之前,这些安全属性不能轻易改变。系统通过检查主体和客体的安全属性是否匹配来决定是否允许访问。强制安全访问控制基于安全标签的读写策略使数据库管理系统能够跟踪数据的流向,可以避免和防止大多数有意或无意的数据库侵权行为。因此,它可以为木马程序提供一定程度的保护。管理系统具有很大的应用价值[2]。其典型代表是Bell-LaPadula模型(简称BLP模型)和Biba模型,也是目前应用最广泛的模型,可以达到保护数据机密性和完整性的目的。与自治访问控制不同,用户无权将任何数据资源的访问权限授予其他用户,即使是属于用户的数据库资源。图1为BLP模型设计示意图。图1BLP模型设计原理1.2同态加密同态加密是一种无需解密即可对密文进行各种运算的加密方法。其运算结果与直接对原始数据进行运算的结果相同。使用这种加密方式,在保护数据提供者的敏感数据的同时,还可以保证数据的可用性。图2展示了同态加密在大数据经典案例模型中的应用。同态加密通常用在数据收集阶段而不是分析阶段,因为计算处理速度很慢,在某些情况下无法准确解密。目前有很多研究在进行,预计几年后同态加密也将进入分析阶段。高等。[3]提出了一种隐私保护方案,通过OTP(OneTimeProgrammable)技术和同态加密技术使数据提供者能够安全地公开数据,提出了一种更强的安全性增强的隐私保护方案。米塔尔等。[4]提出了一种解决云环境中用户隐私威胁的同步挖掘方法,该方法在分布式环境中使用较弱的同态密码系统来保持k-means聚类的准确性,讨论了所提出的方法通过以下方式对某些攻击是安全的安全分析,缺点是这种方法很难在分布式云环境中应用。图2同态加密在大数据系统中的应用模型除敏感数据访问控制和同态加密技术外,隐私数据的保护还包括以下研究和方法。Balebako等。[5]提出了一个原型,允许用户在Android环境中基于TaintDroid识别隐私泄漏。通过向用户发送过滤后检测到的隐私泄露信息,用户决定应用程序是否可以共享数据。刘等人。[6]提出了一种实现分布式数据隐私安全的影子编码方案,是一种在收集数据时通过影子矩阵计算来保护数据隐私,并在数据失效时进行恢复的方法,但这种方法只能用于同步环境,对各种隐私保护要求的汇聚存在限制。2数据存储目前大数据系统的数据主要采用分布式云存储方式,数据的完整性和机密性一般通过隐私保护技术(如加密和屏蔽)来维护。并且敏感数据只能被特定的授权用户使用,需要对敏感数据进行访问控制。2.1数据加密加密是一种将可理解的数据(明文)转换为不可理解的形式(密文)的方法,确保只有授权用户才能使用数据。图3是数据加密技术的处理过程。从技术上讲,通过数学算法将明文转换为密文的过程,只有拥有加密密钥的人才能将密文转换为明文,数据加密仍然是为了保证数据的机密性。最基本的保护方法,很多研究是利用现有的加密方法来存储大数据。代表性的加密算法主要分为公钥加密(如ABE)和对称加密(如AES)。图3数据加密存储技术ABE是一种基于对象属性集和访问结构进行加解密的公钥加密方法。只有当密文的属性与用户的属性集相匹配时,才能解密。ABE分为KP-ABE和CP-ABE。KP-ABE解密条件(如策略)包含在用户密钥中,CP-ABE解密条件包含在密文中。图4是CP-ABE的加解密原理。许等。[7]提出了CP-ABE,指出了物联网云中现有的基于属性的加密的局限性,解决了用户撤销后的有效访问、物联网云环境中临时解密密钥泄露等问题。李等。[8]提出了一种关键词搜索功能外包ABE算法,可以解决在云环境下使用ABE时查询处理效率低的缺点。这种方法为每个关键字创建一个加密门,云服务提供商能够在不知道关键字和明文的情况下进行搜索和部分解密,具有很高的可扩展性和效率。图4CP-ABEAES加解密原理又称Rijndael算法,是美国NIST采用的基于块加密的对称加密标准。该标准可以替代原有的DES算法,安全性和可靠性经过多方分析和分析。自2001年发布以来,它在全球范围内使用,已成为对称密钥加密系统中最流行的算法之一。AES适用于敏感数据的硬件和软件加密。加密密钥长度可以扩展到128位、192位和256位。由于其加解密速度快,稳定性好,被广泛应用于大数据存储和数据库加密等领域。.此外,Azougaghe等人。[9]提出了一种简单的云存储保护方法,通过AES对存储在云端的数据进行加密,密钥使用EIGamal算法加密后存储在服务器中。侯赛因等人。[10]提出云存储通过AES、Hash算法和ECC保证云环境下数据的机密性和完整性。2.2访问控制存储阶段的访问控制分为对数据的物理访问控制和逻辑访问控制。物理访问控制是为了防止未经授权的用户访问所有物理存储介质,一般会采取必要的安全措施来解决物理访问控制。逻辑访问控制采用一定的访问策略。只有有权访问存储数据的经过身份验证的用户才能使用该数据。传统的封闭环境访问控制是基于角色的访问控制(Role-BasedAccessControl,简称RBAC),随着业务数据的融合和共享,角色呈爆发式增长,访问控制的配置复杂度也呈指数增长。RBAC需要随着需求的变化不断维护控制策略,工作量大且难以保障。及时性,让数据无法安全访问,一种新型的基于属性的访问控制(Attribute-BasedAccessControl,简称ABAC)技术可以弥补RBAC的不足,成为新一代的访问控制技术。如图5所示ABAC访问控制模型示意图,根据用户属性实时计算用户是否具有数据访问权限。图5基于属性的访问控制ABAC模型此外,Ko等人。[11]提出了一种超执行模型,在计算前对数据敏感,按照性质分类,非敏感数据在公有云计算,敏感数据在私有云计算,保护数据的机密性数据。恩戈等。[12]在虚拟云环境中提出了另一种通用的生命周期管理模型,通过将基础设施作为服务提供者,构建支持一致信任建立、访问控制和上下文安全管理的安全基础设施。支持使用可扩展访问控制标记语言中的策略配置文件进行基于角色的策略管理,可授权的Ticket技术解决了分布式云之间共享安全上下文的问题。3数据分析数据分析师可以通过强大的挖掘算法识别敏感数据,使数据所有者容易受到隐私侵犯。因此,数据挖掘过程和分析结果应该只允许授权人员参与,需要特定的访问控制策略。在数据分析过程中,隐私保护的效率与数据处理的效率成反比。很难在保护敏感数据的同时提高数据处理效率。因此,各种隐私数据挖掘应运而生。3.1隐私数据挖掘保护PPDM方法广泛应用于隐私数据挖掘保护,是指在不侵犯数据所有者隐私的情况下发现数据中隐藏的知识或模式的技术。PPDM有两种类型:一种是分析原始数据dataplusnoiseorrandomization,这种分析方法实际上已经应用于各种统计数据,但存在一定的安全隐患。另一种是限制数据分析者无法获得除输入和计算结果以外的信息的方法,但由于计算效率低且不切实际而未被广泛采用。为了平衡计算的安全性和实用性,需要不断选择PPDM方法。PPDM包括统计披露限制、关联规则隐藏、同态加密、去标识化和隐私模型等。关联规则隐藏是一种在分析阶段防止创建敏感关联规则的算法。关联规则在各种挖掘算法中具有高可用性,通过关联规则识别单个敏感数据,删除和添加数据值等,对敏感数据进行最小修改。关联规则隐藏算法一般分为启发式算法、基于边界的算法等[13,14]。去标识化技术是去除数据中不需要的特征或用其他属性信息代替的方法。主要目的是确保包括隐私在内的数据可以与其他数据结合,从而无法识别特定的个人信息。在大数据生命周期的各个阶段,如隐私收集、存储、利用、共享等,都需要进行去标识化,包括各种方法和算法。例如,假名化是指使用删除或替换部分隐私的过程,从而无法识别特定个人。聚合是一种去标识化技术,将敏感数据集的值转换为平均值或总值,以防止敏感数据值被识别。数据缩减是一种直接擦除敏感数据的方式等。3.2访问控制在数据分析阶段,分析师最有可能侵犯数据提供者的敏感数据。必须确保数据分析是由经过认证和数据授权的数据分析师执行的。需要实施适当的访问控制策略,以防止超出目的的未授权访问。分析一般采用传统的身份认证技术(如账号密码、生物特征认证技术)。4.数据利用分析阶段,将各个领域收集到的数据串联起来,通过分析组合产生更多有价值的信息。数据使用阶段就是利用这些重要的信息帮助企业和个人预测未来。价值密度高的数据大部分是敏感数据,比如财务报表分析结果等,这些数据可能未经授权被用于其他目的,决策者可能会与第三方共享敏感数据,以追求最大的商业利益,因此,解决这一风险需要各种隐私数据发布保护技术和审计追踪技术。4.1隐私数据发布保护隐私数据发布保护技术最重要的技术是PPDP模型,它可以在不暴露数据主体身份的情况下向用户分发数据。PPDP结合了去标识化和可视化技术。图6描述了隐私保护数据PPDP模型的概念和涉及的角色。相关研究见文献[15]。此外,Dasgupta等人。[16]提出了平行坐标下的隐私保护可视化模型,采用距离测量和位置保持聚类作为聚类算法,使用k-匿名和l-多样性算法保护隐私,允许用户访问数据并提供可视化工具讨论潜在的攻击和威胁场景。达斯古普塔等。[17]通过识别电子健康数据可视化中使用的各种可视化方法中可能发生的隐私威胁和攻击,概述了相关问题,为隐私保护可视化奠定了基础。图6隐私保护数据发布(PPDP):(a)概念概述(b)PPDP场景中涉及的角色描述会出现各种隐私问题,因此需要记录谁使用数据、使用数据的方式和位置。当审计人员想知道用户使用机器学习模型做出什么样的决策时,审计线索将作为追溯的主要参考。一般在使用数据时,会记录运营商的用户ID、运营时间、内容、地点、对象信息。根据数据的操作等信息,利用机器学习模型对操作的动机进行进一步的预测和判断,最终由专业人员给出审核结果。Ferdous等人。[18]为分布式访问控制系统提出了一种基于区块链的去中心化运行时监控架构,可以根据使用的策略评估访问控制是否被正确执行,并存储日志和基于区块链的监控以检测策略违规行为。缺点是监控可能需要很长时间。5数据销毁大数据系统中的一些数据一旦不再为预期目的进行分析、长时间没有访问需求、超过生存时间戳、超过存储冗余等,就会被销毁。数据销毁主要包括数据硬销毁和数据改写。硬数据销毁是利用外力,如焚烧、粉碎等,对存储介质进行销毁。一旦销毁,就无法继续使用,造成一定的浪费,所以基本上没有得到广泛应用。数据重写,又称覆盖销毁,是目前研究的主流数据销毁技术。数据改写技术主要是采用指定的无意义数据序列,采用特定的改写规则,覆盖磁存储介质上的原始数据。由于磁存储介质的剩磁特性,会导致磁头每次进行写操作时,磁场的强度都不一样。这种差异会导致写入记录之间的覆盖痕迹,从而可以通过专业设备分析并重建数据副本。为了解决这类数据改写的缺陷,最有效的方法是进行多次改写。美国军方的数据销毁标准DOD-5220.22M使用多达7次重写来达到销毁效果。根据不同安全级别的要求,可以采用不同强度的重写算法。6总结大数据在为各行各业提供便利和创新潜力的同时,也带来了许多安全和隐私问题。第一部分,我们解读了国际标准组织制定的现行标准,分析了相关研究,将大数据的生命周期划分为五个阶段(收集、存储、分析、使用、销毁),解读大数据对于读者。数据生命周期的每个阶段都会出现风险和挑战。本文为下一篇。介绍了各阶段的风险处置技术,数据采集阶段的敏感数据访问控制和同态加密,数据存储阶段的访问控制和数据加密,隐私数据挖掘保护,数据分析阶段的数据使用。第一阶段隐私数据的发布保护和审计追踪,为当前的数据安全保护工作提供参考。在未来的工作中,我们将更加明确大数据生命周期各个阶段的风险,对安全技术进行分类,设计安全架构。参考文献[1]Koo,J.,Kang,G.,&Kim,Y.G.(2020)。大数据生命周期中的安全和隐私:调查和公开挑战。可持续性,12(24),10571.[2]赵,Y。王,Z。邹,L。王,J。Hao,Y.基于关联数据的个人服务数据收集和语义统一方法。在2014年国际服务科学会议论文集中,中国无锡,2014年5月22-23日。[CrossRef][3]Gao,W.;于,W。梁,F。孵化器,W.G.;Lu,C.使用同态加密的大数据交易隐私保护拍卖。IEEE跨。网络。科学。工程。2020,7,776–791.[交叉引用][4]Mittal,D.;考尔,D。Aggarwal,A.使用同态加密在云中保护数据挖掘。在2014年IEEE新兴市场云计算国际会议(CCEM)会议记录中,印度班加罗尔,2014年10月15-17日。[CrossRef][5]Balebako,R.;荣格,J。卢,W。克兰诺,L.F.;Nguyen,C.“小兄弟们看着我ngyou”:提高对智能手机数据泄露的认识。第九届可用隐私与安全研讨会论文集,英国纽卡斯尔,2013年7月24日至26日。[交叉引用][6]Liu,S.;屈,问。陈,L。Ni,L.M.SMC:分布式数据流上隐私保护数据共享的实用模式。IEEETrans。大数据2015,1,68–81。[交叉引用][7]Xu,S.;杨,G。穆,Y。Liu,X.具有细粒度访问控制和解密密钥暴露阻力的安全物联网云存储系统。未来的一代。电脑。系统。2019,97,284–294。[交叉引用][8]。李,J。林,X。张,Y。Han,J.KSF-OABE:具有用于云存储的关键字搜索功能的外包基于属性的加密。IEEE跨。服务。电脑。2016,10,715–725。[交叉引用][9]Azougaghe,A.;卡尔蒂特,Z。赫达布,M。贝尔卡斯米,M。ElMarraki,M.一种有效的云存储数据安全算法。2015年第15届国际会议论文集关于智能系统设计和应用(ISDA)的nce,摩洛哥马拉喀什,2015年12月14-16日。[CrossRef][10]Hussien,Z.A.;金,H。阿卜杜勒贾巴尔,Z.A.;侯赛因,文学硕士;阿巴达尔,S.H.;Zou,D.在半可信第三方审计中确保云数据存储数据安全的方案。在2015年第四届计算机科学与网络技术国际会议(ICCSNT)会议记录中,中国哈尔滨,2015年12月19日至20日。[CrossRef][11]Ko,S.Y.;全K.;Morales,R.云计算中保密和隐私的HybrEx模型。热云2011,11,1-5。[交叉引用][12]Ngo,C.;梅姆布雷,P.;德姆琴科,Y。deLaat,C.虚拟化云基础设施的动态配置访问控制服务中的策略和上下文管理。在2012年第七届国际会议记录中。可用性、可靠性和安全性会议,捷克共和国布拉格,2012年8月20-24日。[CrossRef][13]Veryki操作系统,V.S.;Elmagarmid,A.K.;贝尔蒂诺,E.;赛金,Y。Dasseni,E.关联规则隐藏。IEEE跨。知识数据工程师。2004,16,434–447。[交叉引用][14]Verykios,V.S.关联规则隐藏方法。威利跨学科。牧师数据分钟。知识发现。2013年,3,28–36。[交叉引用][15]Majeed,A.,&Lee,S.(2020)。隐私保护数据发布的匿名化技术:综合调查。IEEE访问[16]达斯古普塔,A.;Kosara,R.使用平行坐标的自适应隐私保护可视化。IEEE跨。可见。电脑。图形。2011,17,2241–2248。[交叉引用][PubMed][17]Dasgupta,A.;马奎尔,E.;阿卜杜勒-拉赫曼,A.;Chen,M.电子健康记录数据隐私保护可视化的机遇和挑战。在IEEEVIS2014电子健康记录可视化研讨会论文集中,法国巴黎,2014年11月9-14日。[CrossRef][18]Ferdous,M.S.;马尔盖里,A.;帕奇,F.;是昂,M。Sassone,V.云联合中访问控制系统的分散式运行时监控。在2017年IEEE第37届国际分布式计算系统会议(ICDCS)会议记录中,美国佐治亚州亚特兰大,2017年6月5-8日。[CrossRef]