一个成功的数据治理计划涉及部署政策、标准和流程,以有效和正确地利用整个企业的高质量数据。如果您的企业拥有数据湖环境并希望从中获得高质量的分析,您需要部署适当的数据湖治理作为整体治理计划的一部分。但数据湖对企业数据管理的各个方面都提出了挑战,包括数据治理。在我们进入治理挑战之前,定义什么是数据湖是有用的:一个容纳大量原始数据的数据平台,通常以其本机格式保留,直到需要进行分析。传统数据仓库将数据存储在关系表中,而数据湖使用平面结构。每个数据元素都分配有一个唯一的标识符,并使用一组元数据标签进行标记。也就是说,数据湖的结构不如数据仓库。在访问数据进行分析时对数据进行分类和组织,而不是在将其加载到数据湖中时。有效的数据治理使组织能够提高数据质量和一致性,并最大限度地利用数据进行业务决策,从而改善业务规划和财务绩效。数据治理的配套数据管理规程包括数据质量、元数据管理和数据安全,所有这些都会影响数据湖治理。现在,让我们看看以下5个数据湖部署中的数据治理挑战。1.识别和维护正确的数据源在许多数据湖部署中,源元数据未被捕获或根本不可用,这使得数据湖内容的有效性受到质疑。例如,记录系统或数据集的企业所有者可能未列出,或者明显冗余的数据可能会给数据分析师带来问题。至少,应记录数据湖中所有数据的源元数据,并提供给用户以了解其来源。2.元数据管理问题元数据为数据集内容提供上下文,是使数据在应用程序中易于理解和使用的重要组成部分。但是许多数据湖部署忽略了将正确的数据定义应用于所收集数据的需要。而且,由于原始数据通常会加载到数据湖中,因此许多组织不会采取措施验证数据或对其应用企业数据标准。缺乏适当的元数据管理使数据湖中的数据对分析的用处不大。3.数据治理和数据质量缺乏协调数据湖治理和数据质量工作不协调会导致质量差的数据进入数据湖。当这些数据被用于分析和驱动业务决策时,这可能会导致不准确的结果,从而导致对数据湖失去信心以及整个企业对数据的普遍不信任。有效的数据湖部署需要数据质量分析师和工程师与数据治理团队和数据管理员密切合作,以部署数据质量策略、分析数据并采取必要的措施来提高其质量。4.数据治理和数据安全方面缺乏协调在这种情况下,如果数据安全标准和政策没有适当地纳入治理过程,可能会导致受隐私法规保护的个人数据和其他类型的敏感数据无法访问.虽然数据湖被设计成相当开放的数据源,但仍然需要安全和访问控制措施,数据治理和数据安全团队应该在数据湖设计和加载过程中携手合作,以及持续的数据治理工作。5.业务部门之间使用同一个数据湖的冲突不同部门可能对相似的数据有不同的业务规则,这可能导致无法协调数据差异进行准确分析。健全的数据治理计划应该具有数据策略、标准、流程和定义的企业视图,包括企业业务词汇表,这可以减少多个业务部门使用同一数据湖时出现的问题。如果一个企业有多个数据湖,每个数据湖都应该包含在数据湖治理流程中,并分配一个业务数据管家。总之,通过将强大的数据治理、元数据管理、数据质量和数据安全流程纳入数据湖的设计、加载和维护,并在所有这些领域经验丰富的专业人员的积极参与下,数据湖的性能可以显着提高改善。的价值。否则,您的数据湖可能会变成数据沼泽。
