生成可供分析的数据的一个关键要求是数据必须“好”。组织根据其在分析和数据科学方面的成熟度,对良好数据质量的定义各不相同。成熟度模型类比在这里似乎很合适,原因有二。首先,模型中的层次是相互依存的,只有掌握了较低的层次,才能达到较高的层次。其次,向更高层次迈进,不仅仅是工具或算法的问题,还需要不同的流程和组织思维。级别1:数据来源了解数据的来源、收集方式、转换方式、原因以及由谁转换是任何可用数据集的最基本要求。例如,在临床环境中——如果我们不知道哪个实验室进行了测试,谁资助了这项研究,血压是站立还是坐着,或者某些患者在我们得到试验结果之前是否被排除在外——数据是实际上没用。了解每个数据集的来源、沿袭、所有者和其他元数据(甚至在查看数据本身之前)是任何数据分析之前的基本要求。在医疗保健领域,利益冲突、资金来源、隐私和其他道德考虑的披露也很关键。俗话说-“如果你对数据进行足够的折磨,它会告诉你任何事情”。Level2:BasicHygiene在这一层,团队关心的是基本数据元素的统一表示:数字(格式为“3,500”或“3500”)空值(代表“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式为单个值)标准单位和标准单位的转换(格式为“30lbs”到“13.6”千克)地理空间点、圆、弧和多边形日期和时间、货币、名称、地址、电子邮件、布尔值和其他常见类型这些值中的大多数都有国际标准,尽管通常不止一个“标准”在起作用。对于数据消费者而言,正确的选择始终是“采用工具本身可以理解的格式”——因此,如果工具是Tableau、R、pandas或Excel,答案可能会有所不同。大多数提供数据质量指标、数据完整性或丰富性指标、自动数据规范化或主数据管理的工具都在这个级别运行。第3级:离群值、混淆和不太可能的组合下一个级别超越了单个数据元素,进入描述性统计和可能的错误。例如,服用12,345种不同类型药物的患者可能存在数据输入错误,或者至少是在计算对异常值(例如均值和标准差)敏感的描述性统计量时应排除的异常值。有时问题不是单个异常值,而是一连串几乎异常的案例。例如,在网站每秒网络流量的数据集中,10分钟内比历史标准增加100倍更可能是机器人而不是真实用户活动的结果。Flurries通常出现在时间序列数据中,必须根据具体情况保留或删除。领域专家还应该更深入地挖掘,以发现由于不太可能的组合而导致的错误。特别是在医疗保健领域,通常可以识别出临床上不太可能的组合。例如,在一个案例中,一名25岁的女性体重535磅本身是合理的,但查看同一患者的其他测量结果和实验室结果,很明显这是女性53.5磅的错字。这种“临床上不太可能的组合”通常是数据输入错误,应在下游数据分析之前消除。第3级需要更深入的统计知识以及DataOps团队更深入的领域专业知识。如示例所示,此级别的“固定”数据质量不能再完全自动化。第4级:覆盖范围差距下一个级别超越了将数据集的质量描述为通用度量——讨论给定分析项目的适用性。这尤其涉及识别所提供数据中的差距并找到填补这些差距的方法。例如,考虑一个跟踪英国儿童疫苗接种率的项目。收集的数据可能存在空间覆盖缺口(即没有在威尔士收集数据)、时间覆盖缺口(有15年的数据,除了2010年由于当年的预算限制)或人口覆盖缺口(即没有失学)调查)。这种差距的重要性在很大程度上取决于项目。例如,如果目标是识别有风险的儿童,找到不在学校的儿童可能很关键;然而,如果目标是比较男孩和女孩,这个差距可能不会破坏整体分析。做出正确的决策和更正需要您的分析和DataOps团队之间的协作。第5级:偏见在更高层次上,运行由数据科学、DataOps和软件工程师组成的完全集成的项目团队。人们每天都在从事同一个项目,这使得发现并解决已经“通过”所有先前质量关卡级别的数据中微小但关键的偏差成为可能。这通常适用于机器学习和数据挖掘项目。例如,假设我们正在寻找一种算法,该算法可以根据患者的医院临床记录自动分配ICD-10诊断和程序代码。为了训练它,我们只有镇上两家医院之一的数据。两家医院均设有内科病房,但一家专门从事心脏病学和肿瘤学(并处理大部分病例),而另一家专门从事免疫学、内分泌学和老年病学。请注意,无论我们选择哪家医院——我们训练数据中诊断和程序代码的分布都会偏离我们在“现实世界”中观察到的,这将扭曲机器学习算法,因为首先是经验分布中的数据训练数据将与在线观察到的数据不同。数据集的选择也会导致其他不太明显的偏差。每家医院固有地经历不同的年龄、性别和合并症分布——因为在医疗保健中,所有这些都是相关的。这意味着由于这些关系和相关性,监督和非监督学习算法都可能以微妙但重要的方式产生偏差。这具有重要的实际意义,因为我们越来越依赖机器来做出影响人们健康和福祉的日常决定。您对训练数据的选择隐含地忽略了那些没有被代表的人,并且可能会根据他们过去的行为过度惩罚或奖励那些被代表的人。这基本上是一个数据质量问题。了解此类问题的存在并有效解决它们需要数据科学家和DataOps专家之间持续深入的合作,这对于生成没有未公开偏见的机器学习模型或预测分析是必要的,并且经得起现实世界采用的考验。
