数据准备通常被认为是在组织内利用数据的主要障碍,而为组织找到合适的工具可能是一个突破口。要获得数据分析的好处,您必须首先准备数据。根据研究公司Gartner最近的研究,这对许多组织来说是一个严重的瓶颈,他们70%的时间都花在了数据准备上。“及时查找、访问、清理、转换数据并与合适的人共享数据仍然是数据管理和分析中最耗时的方面,”Gartner数据和分析团队高级分析师、《Gartner公司数据准备工具市场指南》。障碍之一。”HitachiVantara首席营销官JonathanMartin表示,对于希望通过分析实现业务转型的组织而言,主要问题不是掌握人工智能,而是掌握数据管道。他说:“数据准备具有挑战性。您如何确定所有这些数据在哪里?你能建立一个投资组合吗?您能否设计管道以自动化、托管和托管的方式将所有这些数据源连接在一起?,以便组织可以在正确的时间将这些数据发送到正确的位置、正确的人员、正确的机器?”那么如何采用数据准备工具来解决这些问题呢?以及在为组织内容选择数据准备工具时要寻找的内容。下面深入探讨了为什么数据准备仍然是一项主要的分析挑战,并因多种因素而加剧。首先,支持分析计划所需的数据源和数据类型的数量和复杂性呈指数级增长。通过组织内外的分布式数据生态系统访问这些数据源需要大量时间、资源、技能和工具才能完成。IDC数据集成和完整性软件服务研究总监StewartBond表示,“这就是当今数据环境的复杂性。因为有许多不同类型的数据:交易数据、社交媒体数据、结构化数据、非结构化数据、日志“文件数据、图形数据。数据环境中有各种不同的数据,存储这些数据的技术也不同。”其次,IT团队对自助数据访问和集成的请求量不堪重负。这表明从集中式IT模型到数据集成的功能不再有效,Zaidi说。“IT需要配置数据访问和集成易于用户使用和理解的工具,这就是为什么对数据准备的需求进一步上升的原因,”他说。“第三,数据需求在不断变化,因为业务分析师、集成商、业务用户、数据工程师和数据科学家对他们的项目都有不同的数据需求。这使得一次准备数据更容易,并使不同的角色/消费者可以使用它们以满足他们不断变化的需求,”下一代数据准备工具他补充说,随着数据准备工具的成熟,组织的痛点已经发生了显着变化。痛点是使用哪些数据源来连接和准备什么数据。今天,组织关注数据治理、沿袭、可追溯性和质量。他们还面临着确保具有必要技能的合适人员使用数据准备工具访问正确数据的问题。邦德将这归结为“数据智能”问题,元数据关于数据。他说,“人们需要了解数据在哪里,它是关于什么的,谁在使用它,谁可以访问它,为什么他们拥有它,需要多长时间保存,以及如何使用它是有智慧的。“值得庆幸的是,数据准备工具市场正在发展以包含解决这些问题的新功能。上一代工具仅限于支持业务用户所需的最后一英里数据准备的简单数据转换要求。下一代工具现在能够与IT团队共享发现和准备的模型以采取行动,以及数据编目等数据管理功能,使用户能够查看和搜索连接的数据资产。Zaidi说:“一些工具现在还嵌入了以前没有的高级数据质量功能生成工具。这些功能包括分析、标记、注释、重复数据删除、模糊逻辑匹配、链接和合并功能。这些功能使IT和数据管理团队更容易提高质量并确保治理和协作。“在这里,机器学习(ML)是关键。基于ML的功能不仅可以在准备之前自动匹配、加入、分析、标记和注释数据,而且某些工具可以突出敏感属性、异常和异常值,并与元数据管理和治理工具协作以防止敏感数据从暴露。Zaidi解释说:“这些机器学习增强的数据准备工具允许不同技能水平的用户采用数据准备,同时确保治理和合规性。在数据准备工具中寻找什么当组织评估现代数据准备工具时,Zaidi说他们应该看关键功能:数据摄取和分析。寻找一个可视化环境,使用户能够交互式地摄取、搜索、采样和准备数据资产?数据编目和基本元数据管理。采用的工具应允许创建和搜索元数据。数据建模和转型。工具应支持数据混搭和混合、数据清理、过滤以及用户定义的计算、组和层次结构。数据安全。工具应包括安全功能,例如数据屏蔽、平台身份验证和用户/组/角色级别的安全过滤。基础数据质量和治理支持。数据准备工具应与支持数据治理/管理以及数据质量、用户权限和数据沿袭功能的工具集成。资料丰富。工具应支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。用户协作和操作。这些工具应促进查询和数据集的共享,包括发布、共享和推广具有数据集用户评分或官方水印等治理功能的模型。此外,Zaidi还强调了以下差异化特征:数据源访问/连接。工具应具有基于API和基于标准的连接性,包括对云计算应用程序和数据源(例如流行的数据库PaaS和云计算数据仓库)、本地数据源、关系和非结构化数据以及非结构化数据的本地访问。关系型数据库。机器学习。工具应支持使用机器学习人工智能来改进甚至自动化数据准备过程。混合和多云部署选项。数据准备工具需要支持在云端、本地或混合集成平台设置中的部署。特定领域或垂直领域的产品或模板。工具应为特定领域或垂直领域的数据和模型提供打包的模板或产品,以加快数据准备时间。最后,Zaidi说,人们首先要考虑的是他们的组织是使用独立的数据准备工具,还是使用将数据准备嵌入到更广泛的分析/商业智能、数据科学或数据集成工具中的工具。供应商合作。如果存在依赖于一系列分析/商业智能和数据科学工具的数据集成的常见用例,请考虑使用独立工具。另一方面,如果您只需要在特定平台或生态系统的上下文中准备数据,那么使用这些工具的嵌入式数据准备功能可能更有意义。数据准备市场概览Gartner将数据准备工具供应商分为四类,每一类都在不断变化,因为数据准备功能已嵌入所有数据管理和分析工具中。(1)独立的数据准备工具。该领域的供应商专注于实现与下游流程的更紧密集成,例如API访问和对多种分析/商业智能、数据科学和数据集成工具的支持。该领域的工具包括Altair、Datameer、LoreIO、ModakAnalytics、Paxata和Trifacta等供应商提供的产品。(2)数据集成工具。此类供应商历来专注于数据集成和管理。这包括来自CambridgeSemantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供应商的产品。(3)现代分析和商业智能平台。这些供应商专注于将数据准备作为端到端分析工作流程的一部分。Zaidi说,由于数据准备对于现代分析和商业智能至关重要,因此该领域的所有供应商都在嵌入数据准备功能。此类别中的供应商包括Alteryx、Tableau、CambridgeSemantics、Infogix、Microsof、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCOSoftware和TMMData。(4)数据科学和机器学习平台。据Gartner分析师称,这些供应商提供数据准备功能,作为端到端数据科学和机器学习过程的一部分。代表性供应商包括Altery、CambridgeSemantics、Dataiku、IBM、Infogix、RapidInsight、SAP和SAS。除了上述四个类别外,Gartner分析师还确定了具有数据准备能力的新类别,其中包括以下平台和代表性供应商:数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni数据工程平台:InfoworksDataQuality工具:Experian数据集成专家:Alooma、Nexla、StreamSet和Striim6种主要数据准备工具以下六种数据准备工具对当前可用的功能进行了更详细的描述。(1)AlteryxDesigner是一种独立的数据准备工具,也是Alteryx分析和数据科学平台的一部分,这意味着它还可以作为更广泛的现代分析和商业智能平台以及更广泛的数据科学和机器学习中的一项功能嵌入平台功能。它提供了一个拖放式工作流,无需SQL代码即可分析、准备和混合数据。它是年度订阅,按指定用户定价。(2)CambridgeSemanticsAnzoAnzo是CambridgeSemantics的端到端数据发现和集成平台,因此涵盖了Gartner的所有四个类别。Anzo在现有数据基础架构之上应用基于语义的基于图形的数据结构层来映射企业数据,公开数据集之间的连接,实现可视化探索和发现,以及混合多个数据集。Anzo通过订阅提供,定价基于核心数和用户数。(3)DatameerEnterpriseDatameerEnterprise是一个完全独立于Gartner类别的数据准备和数据工程平台。它侧重于使用向导引导的集成过程将不同的原始数据源汇集在一起??,以创建单个数据存储。DatameerEnterprise为混合和可视化探索功能提供了类似电子表格的界面。根据计算能力或数据量向客户收费。云计算客户按小时或按年付费。(4)InfogixData3SixtyAnalyzeInfogix公司的Data3SixtyAnalyze是一个基于Web的解决方案,起源于Infogix对Lavastorm的收购。与Datameer一样,它涵盖了所有四类Gartner公司。Data3Sixty使用角色来定义用户。设计人员可以创建和编辑数据流,浏览器只能执行数据流,规划人员可以创建和修改计划以进行自动化处理。Infogix将Data3Sixty作为基于订阅的桌面产品和基于服务器的产品以永久和订阅的方式销售。(5)TalendDataPreparationTalend提供三种数据准备工具:TalendDataPreparation(开源桌面版)、TalendDataPreparationCloud(商业版作为Talend云平台的一部分提供)和另一个版本的TalendDataPreparation(作为内部部署的TalendDataFabric产品)。TalendDataPreparation是一个独立的工具,而TalendCloud和TalendDataFabric是将数据准备作为功能集成到更广泛的数据集成/数据管理工具中的示例。Talend使用机器学习算法进行标准化、清理、模式识别和协调。开源版本是免费的。商业版遵循基于指定用户许可的订阅模式。(6)TrifactaWranglerTrifactaWrangle是一个独立的数据准备平台,提供多种版本以支持云计算和本地计算环境。它提供嵌入式机器学习功能,用于推荐要连接的数据、推断数据结构和模式、推荐连接、定义用户访问以及自动化可视化以探索/数据质量。TrifactaWrangler提供免费版、WranglerPro(根据计算能力和用户数收费)、WranglerEnterprise(根据计算/处理规模和消费费用收费)。
