ByDanNeault译者|陈军如今,大家普遍认为数据是商业环境中最有价值的资源。企业的成功通常与其将数据货币化的能力直接相关。作为传统关系型数据库的演进,数据湖可以从多个来源获取原始形式的数据。这就是为什么许多组织已经转向数据湖来改进分析、实现更有效的协作并支持大规模数据驱动的决策制定。尽管数据湖可以为组织带来卓越的业务成果,但它们的快速采用也可能为一些缺乏资源和领域专业知识的团队造成合规性和安全控制方面的障碍。更复杂的是,数据湖的广泛使用,将让更多的内外部角色接触到数据,从而放大业务安全的潜在风险。1.从数据库到数据湖20世纪60年代,随着计算机的普及,组织需要有效地存储和管理手中的数据,这催生了数据库技术。在接下来的几十年里,联机事务处理(OLTP)工作负载和关系数据库成为快速准确数据处理的主力军。到20世纪80年代,数据仓库将数据处理从事务或操作系统转变为决策支持系统。这种转变使许多组织能够聚合来自多个环境的数据,并通过汇集商业智能(BI)来支持战略决策制定。如今,大量组织利用数据库、数据仓库和BI来提供创新信息并指导战略决策制定。然而,随着云计算和现代编程语言的兴起,数据库的使用方式发生了巨大变化。组织开始意识到,如果他们不局限于预定义的模式和系统,那么他们可以从数据中获得更多价值。数据可用于开发、训练、分析机器学习(ML)模型,或对在任何类型的数据库上运行的现有工作负载进行现代化改造。云计算能够以前所未有的速度和规模快速配置现代工作负载。数据仓库擅长处理和分析结构化数据,但它们无法捕获原始的非结构化数据,这在一定程度上限制了组织的数字业务。因此,数据湖等非关系数据库变得越来越流行,一些数据架构师正在尝试默认使用数据湖来处理新的工作负载并使现有工作负载现代化。2.为什么要使用数据湖?正是因为数据架构师利用数据湖构建ML模型,为无数分析系统提供数据,然后按需进行查询、分析等操作,从而获得了数据的潜在价值,也促使越来越多的组织开始在数据湖中构建他们的数据生命周期。毕竟,数据仓库传统上用于定期分析大量结构化数据,或定期生成数据报告。而这通常需要企业在处理和存储数据之前完成并将预定义的模式应用于数据库。这在一定程度上限制了数据在后续交易或分析系统中的创新使用。数据湖不需要这样的前期工作。它能够集成和存储未转换或仅经过轻微处理的数据。这些数据可能来自指向数据湖的多个来源,包括:非结构化日志数据、物联网(IoT)传感器、社交媒体和多媒体内容。使用数据湖附带的实施技术,数据架构师可以:使用ApacheKafka等数据流处理工具近乎实时地处理流入数据湖的数据。使用GoogleBigQuery或AmazonAthena等高性能查询引擎直接从数据湖中获取特定的数据洞察。使用Elasticsearch等工具对大量结构化和非结构化数据进行按需分析,从日志和操作中搜索、过滤和可视化数据。3、数据湖安全吗?显然,进入数据湖的数据需要在与历史上存储在关系数据库中的数据相同的级别上受到保护,如果不是更高的话。那么数据湖将面临的主要安全风险有哪些?访问控制:数据库表的访问控制一直是灵活且具有挑战性的。对于数据湖的权限设置尤其如此。我们经常需要基于特定的对象或元数据来定义。否则,整个组织的人员都可以访问数据湖,将个人数据留在其中,并且根据合规性要求保密的数据不安全。根据ForresterConsulting委托进行的一项研究,58%的安全事件是由内部威胁引起的,如果不加以控制,员工对敏感数据的访问可能会成为一场安全噩梦。数据保护:数据湖通常充当组织内信息的单一存储库。因此,它往往成为最有价值的攻击目标。如果没有适当的访问控制机制,不良行为者可以访问整个组织的敏感数据,甚至可以修改各种访问权限。治理、隐私和合规性:由于数据湖中数据来源的多样性和多样性,一些数据可能包含在不同系统和区域中的隐私甚至非法信息。由此产生的跨数据湖存储架构的定位和不同层级的数据管控将具有挑战性。可以看出,为了在不损害安全性的情况下充分发挥数据湖的优势,组织需要遵循一套优秀的实践来降低运营不合规、管理不善、数据泄露和其他安全风险。事件。4.如何保护数据湖一个有效的安全策略往往可以让数据湖具有清晰的可见性和可控性。为此,组织可以采取四个步骤:整理出标准化的数据访问流程:既可以供真实用户使用,也可以被集成系统调用,这个流程应该能够跟踪数据访问和使用的全过程.建立数据分类方案和目录:在数据湖中,数据应根据内容、使用场景、类型、可能的用户群体等进行分类,并提供相应的目录,以实现数据的搜索和索引。同时,我们还应该采用一种方便的方法,将需要保留的数据和需要删除的数据分开。启用数据保护:数据加密和自动监控等安全控制应提前到位。并且当有非法访问用户和可疑活动时,应该能够及时发出警报。加强数据治理、隐私保护和合规:我们需要通过明确的数据政策与相关人员沟通如何定位和使用数据湖,如何提高数据质量和敏感数据的使用,如何遵守数据隐私标准来存储历史数据。5.在防范安全和隐私风险的同时最大化数据价值总之,为了解决与数据湖相关的安全和合规风险,组织应该首先创建一种有效和高效的方法来分类和发现他们在.接下来,组织必须能够识别谁在访问数据,何时访问敏感数据,并防止数据被恶意内部人员窃取。虽然上面提到的各种安全最佳实践是创建数据湖安全环境的基本步骤,但组织应该从基础做起,以数据为中心,确保数据在数据湖中,甚至在组织内外,无论在哪里它是,无论以何种形式存在,都是安全可控的。原文链接:https://thenewstack.io/data-lake-security-dive-into-the-best-practices/
