译者|张译校对|梁策孙淑娟设施和先进算法在市场上的应用也广泛增多。然而,这一切并不能让机器学习(ML)项目落地。来源:由roserodionova创建的聊天机器人矢量-www.freepik.com数据质量问题也不是一个新概念,它自机器学习应用开始以来就受到关注。机器不断地从历史数据中学习,其结果与其训练数据的质量密切相关。Data-CentricvsAlgorithm-Centric在数据科学家的工作中,两种情况时有发生:假设你已经做了初步的探索性数据分析,对模型的性能非常满意,但是模型的应用结果不够好,不能被企业接受。在这种情况下,考虑到研发的成本和及时性,您的下一步是什么:分析错误预测并将它们与输入数据相关联,以发现数据中可能存在的异常和之前被忽视的模式。或者采用前瞻性方法,模型采用更复杂的算法。简而言之,如果您不能为机器提供良好的输入数据,即使更高级、更高精度的ML算法也无济于事。AndrewNg在他的演讲“MLOps:从以模型为中心到以数据为中心的AI”中很好地阐述了这一点。数据质量评估机器学习算法需要训练数据的单一视图(即平面结构)。由于大多数组织维护多个数据库,这种通过组合多个数据源并提取所有必要属性的数据准备过程非常耗时且人力资源密集(需要专门的技术人员)。在此步骤中,发现的错误数据暴露于多个错误来源,因此数据需要严格的同行评审,以确保已建立的逻辑得到正确表达、理解、编程和实施。随着数据库集成来自多个来源的数据,与数据采集、清理、转换、关联和集成相关的质量问题变得至关重要。数据科学行业可能有一个普遍共识,即数据准备、清理和转换占用了大部分模型构建时间。因此,建议不要急于将数据导入模型,而是要进行广泛的数据质量检查。虽然对数据执行的检查数量和类型可能是主观的,但值得讨论数据质量评估中的一些关键因素:完整性、唯一性、及时性、一致性和准确性。数据质量技术:缺失值填充离群值检测数据转换降维交叉验证引导算法质量!质量!质量!现在让我们看看如何提高数据质量:不同的注释:数据是从多个来源收集的。不同的供应商对数据的最终用途有不同的理解,他们有不同的收集和标记数据的方法。即使是同一个数据提供者,当主管了解到需求并分发给不同的团队成员时,也会有无数种标注方式,因为所有团队成员都在根据自己的理解进行标注。供应商方面的质量检查和消费者方面的共识将有助于创建同质标签。不同的记录:对模型的训练数据进行不同的聚类和转换操作会产生重要的影响。示例包括计算移动平均数、回填空值、估算缺失值等。这需要该领域的专家进行验证。缺失数据如何处理?系统缺失数据会导致数据集有偏差。此外,从具有更多空值或缺失值的数据中删除此属性(例如性别或种族)可能会导致删除代表某些人口群体的数据。因此,歪曲的数据会产生有偏见的结果——不仅在模型输出层面存在缺陷,而且违反负责任地使用AI的道德和公平原则。此外,另一种查找缺失属性的方法可能是“随机”。由于缺失值高而盲目地去除一个重要的属性,会降低模型的预测能力甚至破坏模型。估算缺失值的最常见方法是计算跨相似维度或级别的数据的平均值。扁平结构:大多数组织缺乏集中式数据库,缺乏结构化数据是采用机器学习模型进行决策的关键问题之一。例如,网络安全解决方案需要将来自多个来源(例如网络、云和端点)的数据规范化为单一视图,以便对先前的网络攻击或威胁进行算法训练。扩展对数据的理解我们已经讨论了一些可能导致数据质量下降的关键点。接下来,我们将使用TensorFlow看看如何大规模地理解数据:使用TFDV进行统计分析,展示数据的统计分布——均值(mean)、最小值(min)、最大值(max)、标准差等理解数据模式很关键——包括属性、值和数据类型。了解数据分布后,跟踪异常行为也很重要。TFDV突出异常值,从而指导错误检测。它通过叠加训练数据和测试数据的分布来显示训练数据和测试数据之间的漂移。TensorFlow的文档解释了如何使用TFDV来分析数据并提高其质量。有兴趣的可以尝试在数据集上使用合作平台Colab中的TFDV代码。谷歌在这个Colab平台上分享了一段代码。出租车的数值数据和分类数据的统计分析如下:右边显示的缺失值比例有助于更好地理解数据。pickup_census_tract表示完全缺失值的记录,对ML模型没有意义,可以通过EDA算法进行过滤。数据漂移是部署模型中不可避免的现象,它可能发生在训练数据和测试数据之间,也可能发生在训练数据几天之后。机器学习算法是在训练数据和测试数据具有相似特征的假设下执行的,违反这一假设将导致模型性能不佳。参考文献《启用Tensorflow数据验证》(TensorflowDataValidation入门)译者介绍张毅,51CTO社区编辑,中级工程师。主要研究人工智能算法的实现和场景应用,了解和掌握机器学习算法和自动控制算法,将持续关注国内外人工智能技术的发展,特别是人工智能技术在智能领域的应用联网汽车和智能家居等领域的实现和应用。原标题:数据质量对建立成功的机器学习模型的重要性,作者:VidhiChugh
