数据常被称为新的石油,但保障数据质量胜过种出娇嫩的果实。就像果树一样,数据质量需要从源头上得到滋养。这就是数据仓库无法解决数据质量问题的原因。数据科学家花费大部分时间清理在这个关键阶段被忽视的数据集,不仅浪费了宝贵的时间,而且还产生了另一个问题。稍后清理数据时,会做出许多可能扭曲结果的假设。然而,数据科学家别无选择,只能做出这些假设。这就是为什么数据治理对于提高数据质量非常重要。说到质量,数据不像油,更像水果,需要在源头和运输过程中培养质量。数据质量不能固定在数据仓库中。独立用户的问题在于他们倾向于关注受影响最严重的领域。例如,项目经理可能更关心IT资产管理流程中的低效问题,而CFO可能正在向董事会或股东提交报告时发现重要数据丢失。为什么数据质量会受到影响?几个相互关联的参数可用于确定数据的质量。这些参数包括数据一致性、及时性或相关性、准确性和完整性。数据质量差有两个主要原因。第一个与源系统有关,第二个发生在分析阶段。源系统当组织在没有适当控制或标准化流程的情况下收集数据时,就会出现问题。这些问题出现在四个核心领域:(1)采集期间:数据采集是质量控制过程的重要组成部分。这个初始步骤可以为质量差的数据集设定方向。例如,如果在此阶段输入错误的电话号码,则在稍后的数据旅程中,此信息可能会与其他系统中的记录发生冲突,从而难以确认客户的身份。(2)转换过程中:随着数据从用户传递到用户,从系统传递到系统,它发生了转换。例如,当流程没有被正确记录时,就不可能有效地追踪此类数据的沿袭,结果,数据的质量就会受到影响。想象这样一个场景,会计记录从财务部门的一名员工传递给另一名员工。如果第一位员工在转移记录之前未能更新记录,他们可能会无意中让客户在到期时跳过付款。(3)由于时效性:即使在数据捕获阶段产生了高质量的数据,也可能随着时间的推移而减少。例如,某人可能在捕获数据时提供了正确的地址或职位,但如果同一个人更改了他们的工作或地址,则必须更新这些字段。(4)由于流程和标准不一致:当您从使用不同标准的不同系统捕获数据时,就会发生这种情况。例如,当您捕获系统中的度量单位时,您可能会使用EA或LB等代码。在另一个系统中,可能会使用不同的标准,例如EACH或POUND。使用国家代码类比更详细地解释了其中一些问题。许多系统要求用户输入国家代码以完成注册文件、进行预订等。在某些情况下,用户需要手动输入这些代码,而不是从预先建立的列表中选择一个选项。问题是,不能保证每个用户都会输入相同的信息。事实上,这几乎是不可能的。当人们被要求独立输入这些信息时,会无意中为同一个国家创建许多代码,系统将充满相互冲突的数据点。分析阶段由于多种原因,数据质量在分析阶段可能会受到影响。例如,字段可能映射不正确,或者用户可能根据数据做出不正确的假设。缺乏一致性和标准也会影响数字化转型。当公司合并时——糟糕的数据质量使这些合并变得困难。如果没有明确的标准或常见问题,数据质量就会成为一个大问题。当数据质量不够完美时,它就会变得不可信,因此很难说服员工将其用于数据驱动的计划。为什么需要独立的数据质量经理?正如文章开头提到的,数据质量是数据治理计划的核心成果。因此,数据治理团队、团体和部门的一个关键问题是提高数据的整体质量。但是有一个问题:协调。如果你和不同部门的不同人谈论数据质量,你总会得到不同的回应。例如,如果ETL开发人员被问及他们如何衡量数据质量,他们可能会依赖一组特定的参数或规则来确保他们输入的数据符合要求。如果来源质量差,他们就不太可能报告,甚至认为这是他们关心的问题。或者,如果您与在CRM系统上工作的人交谈,他们会担心数据的一致性,因为他们无法匹配系统中的冲突条款。简而言之,每个人对数据质量的看法都不一样。由于大多数数据质量问题是由于跨多个应用程序的集成和数据转换问题而发生的,因此有一个单一的数据质量经理或数据治理经理负责提高整个组织的数据质量非常重要。由于存在如此多的相互矛盾的意见,因此需要一个独立的机构来调解和实施全公司范围内的数据质量改进工作,不带偏见并基于重要性级别。该负责人可以是数据治理经理或一个组。为了有效解决数据质量问题,需要确定优先级。应根据业务影响、普遍性和数据质量问题的复杂性等参数对这些问题进行优先级排序。数据质量改进生命周期每个人的个人数据质量问题对他来说都很重要。然而,为了避免在问题的海洋中迷失方向,需要区分优先级。应根据数据质量问题的业务影响、普遍性和复杂性等参数确定数据质量问题的优先级。这样可以有效解决这些问题。这是一个久经考验的提高数据质量的策略:数据质量改进生命周期。1.定义第一步是定义数据质量标准。这些标准将作为努力的基准。此步骤设定目标并为如何提高数据质量并最终发展业务建立愿景。例如,每次捕获社会保险号时,应捕获九位数字。或者,每次收集电子邮件地址时,请务必输入两次作为辅助确认步骤。2.收集接下来,您需要使用框架记录组织中的所有数据质量问题,以定位数据质量问题。有两种方法可以成功做到这一点。第一步是在公司内部创建数据素养计划。一旦在组织内建立了广泛的素养,就可以建立报告机制,用户可以在其中交流他们对数据质量的担忧。此步骤的唯一目标是从所有来源收集数据质量问题,以便数据治理小组将有一个必须解决的问题列表。在捕获数据质量问题时,必须记录以下信息:问题的商业价值是什么问题的优先级是什么(从客户的角度来看)一旦在组织内建立了广泛的数据素养,就可以建立报告机制用户可以去哪里交流他们的数据质量问题。3.下一个优先事项是开发一种机制来帮助我们了解这些数据质量问题对业务的影响。这是数据治理经理需要完成的最重要的任务。他们必须在评估中考虑以下内容:业务价值主要原因分析解决问题的预估工作量变更管理此过程使治理团队能够有效地确定问题的优先级。这种优先级排序过程通常会造成瓶颈,因为很难做出一致的决策。以国家代码为例,不同的系统可能会有不同的选择。做决定需要有一个框架,这个框架的核心是数据治理委员会。该委员会应由组织中所有不同业务部门的领导者组成。当数据治理经理提出问题时,需要将其提交给委员会进行评估。他们将根据多种因素权衡问题,包括成本/收益比和业务影响。当做出关键数据质量决策时,需要对业务流程进行某种更改。这基本上会导致额外的工作和支出,因此需要在跨部门、公正的委员会层面做出决定。4.分析一旦确定了问题并确定了优先级,负责审批和解决问题的人员就需要进一步分析根本原因。这个过程涉及提问,例如每个问题的根源来自哪里。问题的真正原因是什么?使用国家代码示例,有必要确定这个无效字段是如何导致数据质量问题的。问题的根源是用户手动输入代码,还是因为公司购买了数据而失控了?5.改进解决数据质量问题有四种关键方法:可以通过直接使用源代码并在其中进行相关更改来手动修复问题。可以在ETL管道中进行更改。为此,需要开发代码来决定如何通过已安装的集成(也称为ETL逻辑)处理数据。另一种选择是对特定流程进行更改。例如,在国家代码字段中选择数据的过程发生变化。不需要用户手动输入国家代码,而是可以添加一个下拉菜单,这样就别无选择,只能为所选国家选择正确的代码。第四种方法称为主数据和参考数据管理。当缺少主数据时,定义明确的数据质量问题很明显。比如一个客户名称字段可能需要手工录入,因为没有正确的主数据,也没有别的办法。一个常见的主数据管理解决方案是创建一个地方来存储所有可以被其他系统使用密钥引用的主数据。主数据管理成本高昂且可能相当复杂,但它非常有效。参考数据通常是主数据可以参考的列表。与主数据不同,往往是相对静态的。采取措施管理参考数据,例如访问控制和关系映射,也将有助于提高数据质量。6.控制流程的最后一步是编写一套数据质量规则。这将确保如果问题再次出现,将创建通知或票证来解决问题。这样的通知可以更轻松地快速处理问题,而无需咨询多人和执行复杂的分析。
