当前位置: 首页 > 科技观察

数据湖治理:优势、挑战和入门

时间:2023-03-21 01:11:04 科技观察

一个成功的数据治理计划利用政策、标准和流程来创建高质量数据,并确保它在整个组织中得到适当利用。数据治理最初侧重于关系数据库和传统数据仓库中的结构化数据,但后来情况发生了变化。如果您的企业拥有数据湖环境并希望从中获得准确的分析,那么您还需要部署适当的数据湖治理作为整体治理计划的一部分。但数据湖对企业数据管理的所有领域都提出了各种挑战,包括数据治理。下面我们将探讨一些主要的治理挑战,以及有效治理数据湖的好处。不过,首先,让我们定义什么是数据湖:这是指保存大量原始数据的数据平台,通常包括各种结构化、非结构化和半结构化数据类型。它通常建立在Hadoop、Spark和其他大数据技术之上。虽然大多数数据仓库将数据存储在关系表中,但数据湖使用平面架构。每个数据元素都分配有一个唯一的标识符,并使用一组元数据标签进行标记。因此,数据湖不像数据仓库那样结构化。数据通常以其原始格式保存,并根据特定分析用途的需要进行排序、组织和过滤,而不是在将数据加载到数据湖时。数据湖与数据沼泽如果数据湖没有得到很好的管理和治理,它可能会变成沼泽而不是湖泊。数据在没有适当监督和记录的情况下被倾倒到平台中,这使得数据管理和治理团队很难跟踪数据湖中的内容。这可能会导致数据质量、一致性、可靠性和可访问性方面的问题。因此,数据科学家、数据工程师和其他最终用户可能无法找到用于分析应用程序的相关数据。更糟糕的是,数据沼泽会导致分析错误,并最终导致糟糕的业务决策。数据安全和隐私保护可能无法正确应用,从而使组织的数据资产及其商业声誉面临风险。为了避免这种沼泽情况,企业必须管理数据湖环境。数据湖治理的好处有效的数据治理使组织能够提高数据质量并最大限度地利用数据进行业务决策,从而改进运营、加强业务战略和改善财务绩效。同样的原则也适用于管理数据湖,就像它适用于其他类型的系统一样。数据湖治理提供的具体好处包括:增加对相关数据的访问以进行高级分析。在管理良好的数据湖中,数据科学家和分析团队的其他成员更容易找到机器学习、预测分析和其他数据科学应用程序所需的数据。花更少的时间准备分析数据。虽然数据湖中的数据通常以原始形式保存,直到特定应用程序需要它,但在受监管的环境中可以缩短数据准备过程。例如,预先清理数据可以减少以后修复数据错误和其他问题的时间。降低IT和数据管理成本。通过防止数据湖失控,您可以减少所需的数据处理和存储资源。它还通过提高数据准确性、整洁性和一致性来减少总体数据管理需求。提高敏感数据的安全性和合规性。数据湖的一个常见用例是帮助营销和销售。因此,它们通常包含对客户的敏感信息。对数据湖的强有力治理有助于帮助此类数据得到妥善保护和不被滥用。数据湖治理挑战数据治理的配套数据管理学科包括数据质量、元数据管理和数据安全,所有这些都会影响数据湖治理及其挑战。以下是数据湖部署中遇到的五个常见数据治理挑战。(1)识别和维护正确的数据源。在许多数据湖实施中,源元数据未被捕获或根本不可用,这使得数据湖内容的有效性受到质疑。例如,未列出记录系统或数据集的业务所有者,或者明显冗余的数据可能会给数据分析师带来问题。至少,应记录数据湖中所有数据的源元数据并提供给用户以深入了解其来源。(2)元数据管理问题。元数据为数据集的内容提供背景信息,使数据在应用程序中易于理解和使用,元数据是重要的组成部分。但是许多数据湖部署并未将正确的数据定义应用于所收集的数据。此外,由于原始数据通常被加载到数据湖中,许多企业没有适当的步骤来验证数据或应用组织数据标准。由于缺乏适当的元数据管理,数据湖中的数据对分析没有用。(3)数据治理与数据质量之间缺乏协调。不协调的数据湖治理和数据质量工作可能导致低质量数据进入数据湖。当数据用于分析和推动业务决策时,这可能会导致结果不准确,从而导致对数据湖失去信心以及整个组织对数据的普遍不信任。有效的数据湖实施需要数据质量分析师和工程师与数据治理团队和业务数据管理员密切合作,以应用数据质量策略、分析数据并采取必要的措施来提高其质量。(4)数据治理与数据安全之间缺乏协调。在这种情况下,在治理过程中未正确应用数据安全标准和政策可能会导致访问受隐私法规保护的个人数据和其他类型的敏感数据时出现问题。尽管数据湖被设计成相当开放的数据源,但仍然需要安全和访问控制措施,数据治理和数据安全团队应该共同处理数据湖的设计和加载过程以及正在进行的数据治理工作。(5)业务单元之间使用同一个数据湖的冲突。不同部门可能对相似数据有不同的业务规则,这会导致无法协调数据差异以进行准确分析。拥有强大的数据治理计划以及数据政策、标准、程序和定义的企业视图,包括企业业务词汇表,可以减少多个业务部门使用单个数据湖时出现的问题。如果一个企业有多个数据湖,每个数据湖都应该包含在数据湖治理流程中,并分配一个业务数据管家。如何开始管理数据湖与其他类型系统中的数据治理一样,数据湖治理的常见初始步骤包括:记录管理数据湖的业务案例,包括数据质量指标和其他衡量管理工作收益的方法.寻找高管或业务发起人来帮助确保治理工作获得批准和资金。如果您还没有适当的数据治理结构,请创建一个包括治理团队、数据管理和数据治理委员会的结构——由业务主管和其他相关数据所有者组成。与治理委员会合作,为数据湖环境制定数据标准和治理政策。另一个好的初始步骤是构建数据目录,以帮助最终用户定位和了解存储在数据湖中的数据。或者,如果您已有其他数据资产的目录,则可以扩展它以包含数据湖。数据目录捕获元数据并创建可用数据清单,用户可以搜索这些数据以找到他们需要的内容。您还可以在目录中嵌入有关您组织的数据治理策略以及执行规则和限制的机制的信息。总之,通过在数据环境的设计、加载和维护中包括强大的数据治理以及元数据管理、数据质量和数据安全流程,可以显着提高数据湖的价值。经验丰富的专业人士在所有这些领域的积极参与也至关重要。否则,您的数据湖可能确实更像是一个数据沼泽。