译者|布加迪评论家|孙淑娟未来五年创造的数字数据总量将是迄今为止产生的两倍,非结构化数据将定义这个数字体验的新时代。非结构化数据是指不遵循传统模型或不适合结构化数据库格式的信息,占所有新企业数据的80%以上。为了为这种转变做好准备,许多公司正在寻找创新的方法来管理、分析和最大化他们在从业务分析到人工智能等工具中的所有数据。但政策制定者也遇到了一个老问题:如何维护和提高庞大而笨重的数据集的质量?机器学习就是答案。机器学习技术的进步现在使组织能够有效地处理非结构化数据并改进质量保证工作。随着数据革命的兴起,您的公司在哪些方面苦苦挣扎?面对堆积如山的宝贵但难以管理的数据集,还是使用数据来推动您的业务向前发展?非结构化数据需要的不仅仅是复制和粘贴。准确、及时、一致的数据对现代企业来说无疑是有价值的,与云计算和数字应用程序一样重要。尽管如此,糟糕的数据质量仍然使公司/企业每年平均损失1300万美元。为了解决数据问题,您可以应用统计方法来测量数据形状,这使数据团队能够跟踪变化、剔除异常值并消除数据漂移。在做出关键决策之前,基于统计方法的控制对于判断数据质量、确定数据集的使用方式和时间仍然很有价值。虽然有效,但这种统计方法通常保留用于适合客观和定量测量的结构化数据集。但是那些不太适合MicrosoftExcel或Google表格的数据呢?包括:物联网:传感器数据、库存数据和日志数据多媒体:照片、音频和视频富媒体:地理空间数据、卫星图像、天气数据和监控数据文档:文字处理文档、电子表格、演示文稿、电子邮件、和通信数据当这些类型的非结构化数据发挥作用时,不完整或不准确的信息很容易进入模型。如果错误没有被注意到,数据问题就会堆积起来,并对从季度报告到预测估计的一切造成严重破坏。从结构化数据到非结构化数据的简单复制和粘贴方法是不够的,实际上可能会使业务变得更糟。俗话说“垃圾进,垃圾出”非常适用于非结构化数据集。也许是时候放弃当前的数据方法了。机器学习对数据质量的注意事项在考虑非结构化数据的解决方案时,机器学习应该是首选。这是由于机器学习能够分析海量数据集并在混乱的数据中快速找到模式。通过正确的训练,机器学习模型可以学习解释、组织和分类任何形式的非结构化数据类型。例如,机器学习模型可以学习为数据分析、清洗和缩放推荐规则,使医疗保健和保险等行业更加高效和精确。同样,机器学习程序可以根据非结构化数据源(例如在社交媒体或电子邮件记录中找到的数据源)中的主题或情绪来识别和分类文本数据。当您通过机器学习提高数据质量时,请牢记几个关键注意事项:自动化:数据解耦和更正等手动数据操作既乏味又耗时。鉴于当今的自动化功能可以处理平凡的日常操作,它们也越来越成为过时的操作,从而使数据团队能够专注于更重要、更高效的工作。将自动化整合到您的数据管道中只是确保标准化的操作程序和治理模型到位,以鼓励围绕任何自动化活动简化、可预测的流程。不要忽视人为监督:数据的复杂性总是需要只有人类才能提供的专业知识和上下文水平,无论是结构化数据还是非结构化数据。虽然机器学习和其他数字解决方案将帮助数据团队,但不要仅仅依赖技术。相反,让团队能够利用技术,同时保持对单个数据流程的定期监督。这种平衡可以纠正现有技术措施无法处理的任何数据错误。之后,可以根据这些差异重新训练模型。检测根本原因:当异常或其他数据错误发生时,通常不是单一事件。通过在收集和分析数据时忽略更深层次的问题,您的组织可能会面临整个数据管道中普遍存在的质量问题。即使是最好的机器学习计划也无法解决上游产生的错误,有选择的人为干预可以巩固整体数据流并防止出现重大错误。不要对质量做出假设:要长期分析数据质量,找到定性衡量非结构化数据的方法,而不是对数据的形状做出假设。您可以创建和测试“假设”场景以开发您自己独特的测量、预期输出和参数。使用您的数据运行实验提供了一种确定的方法来计算数据质量和性能,并且您可以自动测量数据质量本身。此步骤确保质量控制始终到位,并且是数据摄取管道的基本特征,而不是事后才想到的。非结构化数据是新机会和新见解的宝库。然而,目前只有18%的组织利用其非结构化数据,而数据质量是阻碍更多业务发展的主要因素之一。随着非结构化数据变得越来越普遍并且与日常业务决策和运营更加相关,基于机器学习的质量控制提供了急需的保证,确保您的数据相关、准确和有用。如果您不拘泥于数据质量,则可以专注于使用数据来推动您的公司向前发展。想一想当您有效控制数据时打开的机会,或者更好的是,让机器学习为您处理工作。原标题:用机器学习解决非结构化数据问题,作者:EdgarHoning
