近年来,大数据引起了行业、科技、媒体和政府部门的高度关注。大数据本质上是一种基于数据处理的技术。分析提取有价值的信息并预测未来的变化,被认为是推动商业和技术创新以及经济增长的新能源。大数据在各个领域具有诸多优势和潜力,但也存在诸多问题和挑战,如隐私保护、伦理问题、数据安全管理方式、个人信息保护和数据滥用等[1],尤其包括海量数据隐私信息共享数据在互联网和开放环境中的买卖和利用给人们带来了巨大的损失,大数据安全保护工作迫在眉睫。本文将分为两部分,为读者讲解大数据生命周期各个阶段面临的风险和各种安全防护技术。第一部分主要介绍目前国际标准化组织制定的安全标准以及大数据生命周期五个阶段(收集、存储、使用、利用、销毁)面临的风险。第二部分主要介绍数据生命周期各阶段的风险应对安全技术。1背景介绍1.1大数据平台大数据是新一代技术,具有数据量大、生成速度快、数据类型多样等特点。这些数据以结构化和半结构化的各种形式呈现。当前分析和处理用户产生的海量数据已经成为政府和企业的主要任务。大数据的各种组件也相继出现,如大数据框架Hadoop、CDH、HDP;集群管控Ambari、数据采集Flume;数据存储HBase;数据处理Flink、Spark和Storm;数据挖掘Mahout和SparkMLib等,专栏1绘制了大数据技术生态系统图,这些组件组合使用以支持大规模数据的收集、分析和存储等任务。图1大数据技术生态系统1.2大数据安全大数据因其价值密度高,往往成为黑客攻击的目标,普遍存在巨大的安全需求。例如,全球互联网巨头雅虎曾被黑客入侵用户账户保护算法,导致数亿用户账户被盗。管理咨询公司埃森哲等研究机构2016年发布的一项研究调查显示,在接受调查的208家企业中,69%的企业在过去一年中“有过数据被公司内部人员窃取或企图窃取”的经历。传统的数据安全需求主要包括数据的机密性、完整性和可用性等,其目的是防止数据在传输、存储和使用过程中被泄露和篡改。在大数据场景下,不仅要满足传统的信息安全需求,还要应对大数据特性带来的各种技术挑战。主要有以下三个挑战。其中一个挑战是如何保护大数据的机密性,第二个挑战是如何实现大数据的安全共享,第三个挑战是如何实现大数据的真实验证和可信追溯。大数据平台一般有五类角色(数据提供者、数据采集者、存储管理者、分析者、决策者),图2是一个大数据平台的简单应用场景。图2一个简单的大数据应用场景数据采集器通过物联网设备、社交网络服务等多种方式采集数据。收集的数据可能包含敏感信息,必须采取适当的数据隐私处理安全措施。存储管理器通过云环境和分布式存储系统存储数据。存储阶段可能包含来自数据提供者的敏感信息。应使用各种安全技术对这些信息进行安全管理,以防止数据泄露。此外,数据删除应按规定进行,以确保数据提供者的权利。数据分析师可以对存储库中的数据进行分析,以获得合适的分析结果。在挖掘和分析过程中可能会出现各种隐私数据挖掘问题。分析师必须使用隐私保护技术来平衡数据的可用性和隐私性。之间的关系。决策者以可视化等方式使用分析结果。在很多情况下,这些结果只能展示给特定的用户,需要隐私保护技术来防止无意中的隐私泄露。2.数据安全标准数据安全标准分为法定标准和事实标准。法律标准是由现有的标准化组织经过一定程序和审议后制定的,包括ISO、ITU、ISO/IECunitJTC1、NIST、SAC和BSI。事实标准是公司和组织在特定领域制定的标准。因为他们的知名度,影响着市场经济,他们的地位也在不断加强。制定了一系列与大数据相关的事实标准。组织单位有TTA、TMForum、IEEE-SA和Apache等。2.1法律标准国际标准化组织(ISO)是1947年成立的国际标准化组织,由各国标准组织的代表组成,旨在解决问题这可能源于不同国家的不同工业和商业标准[2]。目前,已经制定了许多与大数据安全相关的参考架构和框架,例如ISO/IEC20547Informationtechnology-Bigdata-referencearchitecture和ISO/IEC24668Informationtechnology-Artificialintelligence-Processmanagementframeworkforbigdataanalytics,等,但在信息和通信等技术日新月异的领域,这些标准往往跟不上市场趋势。国家标准化委员会成立于2001年,是负责管理、监督和协调我国整体标准化工作,在国际标准化领域促进国家利益的国家标准化组织。与大数据安全相关的标准有《GB/T 35274-2017信息安全技术大数据业务安全能力要求》和《GB/T 37973-2019信息安全技术大数据安全管理指南》[3]。GB/T35274-2017规定大数据服务提供者应具备与基础安全能力相关的组织架构和与数据生命周期相关的数据安全能力。该标准描述了数据生命周期(即获取、传输、存储、处理、交换和销毁)方面的安全要求。《GB/T 37973-2019》还描述了大数据的安全需求,并识别威胁和漏洞等安全风险。但需求的描述只是粗略的描述,详细的技术描述和必要性是不够的。2.2事实标准电信技术协会(TTA)是1988年在韩国成立的信息通信领域的标准化和标准产品测试组织,是韩国唯一规定信息通信组织标准的组织。其大数据相关标准takk.ko-10.0900largeDataDeploymentandUtilizationGuidelines。IEEE是在美国成立的电气和电子工程及相关研究协会。其所属的IEEE-SA组织正在为各行业制定大数据标准[4],通过“IEEEP7002数据隐私处理程序”、“IEEEP7006个人数据AI代理程序”等项目正在制定大数据隐私保护标准。IEEEP7002定义了系统/软件工程过程的要求,涉及使用员工、客户或其他外部用户的个人数据的产品、服务和系统。IEEEP7006描述了创建和授权使用个性化人工智能所需的技术要素,这些人工智能将包含个人控制的输入、学习、道德、规则和价值观。Apache是一个致力于为开源软件项目提供支持的非盈利组织。其中,开源软件项目“基于大数据分析的分布式处理平台Hadoop”与多个开源项目相结合,形成了大数据生态系统。Hadoop分发文件系统项目提供了身份验证和授权等安全性[5]。2.3现有标准的展望与不足数据安全和隐私是大数据需要解决的关键问题,但很多标准组织仍在制定或未涉及。虽然一些标准化组织正在制定与大数据相关的标准,但是标准的制定和发布需要花费大量的时间,而技术的快速发展使得发布的标准只列出了过时的技术,而没有对其进行详细描述。因此,法律上和事实上的标准化组织需要联合发布适合市场的大数据安全和隐私标准。3.安全和隐私挑战如图3所示,大数据生命周期分为五个阶段:数据收集、存储、分析、使用和销毁。接下来介绍每个阶段出现的数据安全问题和隐私风险。图3大数据全生命周期3.1数据采集数据采集阶段,数据从不同的来源收集,具有不同的格式,如结构化、半结构化和非结构化。大数据平台应优先考虑生命周期采集阶段的安全措施。平台最重要的是获得可靠的数据,以确保后续每个阶段的大数据分析和安全设计是有意义的。因此,需要采取适当的措施来确保馆藏的安全。数据收集者可能会在未经同意的情况下不当收集数据,从而侵犯提供者的数据主权。例如,很多人在社交媒体和购物等日常活动中缺乏同意意识,不经意间泄露了自己的隐私数据,也有可能通过各种攻击(如欺骗、钓鱼和垃圾邮件)获取敏感数据,因此一些需要采用授权方法来控制对数据收集的访问。此外,还需要采取额外的安全措施来防止数据泄露,例如对某些数据字段进行加密。目前,同态加密技术得到广泛应用。3.2数据存储在数据存储阶段,将采集到的数据存储在大型数据中心,供下一阶段(即数据分析阶段)使用。由于收集的数据可能包含敏感信息,因此在存储数据时采取有效的预防措施非常重要。存储阶段面临的风险是多方面的,不仅包括来自外部黑客的攻击、来自内部人员的信息窃取,还包括超出不同利益相关者权利的数据使用。因此,存储阶段需要通过物理安全和数据保护技术的结合来应对各种威胁。在数据不完全可靠的地方,例如在云环境中,数据的完整性和机密性通过加密和屏蔽等隐私保护技术得到维护。由于数据量巨大,数据存储业务需要坚持分布式存储。敏感数据只能通过访问控制提供给授权人员。如果未经同意无意中传递了敏感数据,则必须立即将其销毁。3.3数据分析数据收集和存储后,对数据进行处理、挖掘和分析,产生有用的知识。数据分析阶段会用到各种数据挖掘技术,如聚类、分类、关联规则挖掘等,为处理和分析提供一个安全的环境非常重要。数据挖掘者可以通过强大的挖掘算法识别敏感数据,使数据所有者容易受到隐私侵犯。因此,应保护数据挖掘过程和分析结果免受基于挖掘的攻击,只允许授权人员参与。此外,在分析数据的过程中,隐私保护的效率与数据处理的效率成反比,即很难在保护敏感数据的同时提高处理效率。因此,各种隐私保护挖矿技术和去标识化技术正在被开发来解决这个问题。一个关键问题。3.4数据利用数据利用阶段是利用分析阶段产生的重要信息,通过对敏感信息的分析和组合,创造出新的信息,连接各个领域收集到的数据,帮助企业和个人识别和推断一些未来的判断,其中大部分属于敏感信息,未经同意可用于其他目的。此外,决策者可能会与第三方共享敏感数据以谋求商业利益,因此需要审计追踪技术和隐私数据发布保护技术来应对这一风险。3.5数据销毁一旦数据不再被用于预期目的分析或数据所有者拒绝使用权,数据必须被销毁。数据销毁主要包括通过物理方式销毁硬盘或破坏存储内容来销毁数据。破坏硬盘就是借助外力直接砸碎存储介质。一旦损坏,将无法继续使用。数据本身的破坏,比如多次覆盖,这些方法涉及到对存储数据的整个物理/逻辑空间的处理,很难只删除部分数据,也很难验证处理的有效性。一些机构在达到既定目的、用户撤回数据使用权后仍继续使用数据,部分人员将数据出售给第三方公司换取利益,严重侵犯了用户隐私权。由于大数据本身的特点,在分布式环境下,一般会采用覆盖等技术来销毁数据而不是销毁硬盘,而国防机密则会通过销毁硬盘来销毁数据。4.总结本文解读了目前国际标准组织制定的标准,分析了相关研究发现,目前的数据安全研究主要集中在存储和分析阶段,对数据收集和销毁的研究较少,但大数据生命周期的各个阶段都是相互关联的。解决大数据的安全和隐私问题不仅限于存储和分析阶段。希望我们重视每个阶段的安全提升,全方位解决数据安全问题。本文将大数据生命周期分为五个阶段(收集、存储、分析、使用、销毁),为读者解读大数据生命周期各个阶段的风险与挑战。在下一篇文章中,我们将介绍安全技术来应对这些风险和挑战。参考文献[1]Koo,J.,Kang,G.,&Kim,Y.G.(2020)。大数据生命周期中的安全和隐私:调查和公开挑战。可持续性,12(24),10571.[2]ISO——国际标准化组织。在线获取:https://www.iso.org/about-us.html(2020年10月27日访问)。[3]SAC——中国标准化管理委员会——ISO。在线获取:https://www.iso.org/member/1635.html(2020年10月27日访问)。[4]IEEESA—IEEE标准协会—主页。在线获取:https://standards.ieee.org/(2020年10月27日访问)。[5]阿帕奇Hadoop。在线提供:https://hadoop.apache.org/(2020年10月27日访问)。
