当前位置: 首页 > 科技观察

DataOps,数据管理新时代

时间:2023-03-13 13:01:08 科技观察

【.com快考】最近一项针对企业面临的大数据挑战的调查揭示了一个关于数据使用的惊人事实:38%的企业“缺乏”令人信服的合理使用方式他们持有的数据;34%的公司没有足够成熟的流程来持续处理大数据;24%的企业甚至无法将大数据转化为终端用户可以使用的有价值的数据信息!无论该调查是否夸大其词,都表明许多企业不知道他们可以和必须对数据做什么,以及如何正确地从客户那里收集数据。可以说,在数据驱动的竞争格局中,忽视数据的价值,甚至未能充分发挥其潜力,只会给组织带来灾难性的后果。许多组织经常在收集大量数据的过程中不知道如何使用适当的流程来处理和转换数据。当然,部分问题源于遗留数据管道。当数据通过数据管道从源系统移动到目标系统时,每个阶段都可以创建一个关于数据含义及其使用方式的脱节视图。这些会使数据管道变得脆弱且难以迭代,进而使组织在面对变化时反应迟缓。在这方面,我们值得走的路是:DataOps。什么是数据运营?DataOps(DataOperations的缩写)是一种协作式数据管理方法,强调组织内各种数据管道的通信、集成和自动化。与数据存储管理不同,DataOps主要关注的不是数据的“存储”,而是数据的“交付”。换句话说,如何让所有数据用户都能轻松获取、访问和使用数据。其管理的目标是创建数据、模型和相关组件的可预测交付和变更管理,以便可以在整个组织和数据消费者之间更快地交付有价值的信息。为此,DataOps需要利用各种技术实现数据的设计、部署、管理和交付的自动化,缩短数据分析的周期,提高其用途和提供的价值。在此基础上,DataOps可以大大提高组织对市场变化的响应速度和应对挑战的能力。DataOps可以解决的挑战和问题大数据的最大好处是快速可靠的数据驱动和可实现的业务洞察力。对此,各组织和技术人员需要将DataOps与敏捷、DevOps和精益制造方法和实践相结合,以应对以下数据挑战:速度现代组织往往需要持续分析来自不同来源和不同形式的数据清理、改进和再利用。只有通过这样一个复杂而漫长的过程,组织才能从那些快速发展的业务环境中挖掘出潜在的数据洞察力。而DataOps恰好从根本上提高了发现这些见解的速度。数据类型有时,组织收集的数据可能是非结构化格式。此类数据源有可能为新兴业务挑战提供线索。因此,组织仍然以结构化格式处理数据是不够的。鉴于提取此类数据洞察的难度,DataOps使组织能够更好地识别、收集和使用来自每个可用数据源的数据。数据孤岛DataOps打破了组织内数据过于集中的孤岛状态。同时,通过构建弹性系统,为需要访问数据的各方提供自助服务。也就是说,弹性系统随组织的业务扩展,为数据用户提供一种可预测的方式来按需查找和使用数据。DataOps的业务优势对于数据驱动型企业,他们需要尽快将数据交付给数据工程师、数据科学家、机器学习(ML)工程师,甚至客户。而DataOps可以为他们带来以下业务优势:最大限度地利用数据DataOps为所有数据用户包括:分析师、管理人员和客户提供自动化的数据交付,并在此过程中允许每个部门从数据中提取最大的信息价值.显然,它可以提高组织的竞争力、对变化的响应能力以及更高的投资回报率。在正确的时间获得正确的洞察目前,大数据的一个重要问题是提供数据洞察的及时性。换句话说,企业提供正确的洞察力太晚是没有意义的。而DataOps可以快速向需求方提供数据,以更快地做出更明智的决策,使组织能够快速适应市场变化。提高数据生产力DataOps使用自动化工具将数据作为自助操作的服务提供。它消除了数据请求和数据访问之间固有的延迟,并使团队能够做出数据驱动的决策。同时,由于DataOps摆脱了需要手动更改数据管道的各种管理流程,组织可以对数据管道进行简化、快速和自动化的更改。针对结果优化的数据管道DataOps将反馈循环纳入数据管道,使各种数据消费者能够识别他们需要的特定数据并从中获得定制的见解。因此,每个团队都可以利用这些见解进一步降低成本、发现新机会并提高组织的盈利能力。DataOps的原理在技术上,DataOps可以在不影响数据分析速度或质量的情况下,提高数据应用的可扩展性。由于DevOps的教训和实践,DataOps在许多关键方面与DevOps高度重叠。以下是DataOps的三个基本原则:持续集成由于DataOps可以动态识别、组织、集成和提供来自不同来源的数据,新数据将通过DataOps自动集成到数据管道中,并使用AI/ML工具,可用于所有需求者。DataOps自动化彻底简化了数据从发现到转换、管理、洞察和定制的整个过程。事实上,它可以实时将数据直接流式传输到预测算法中,为用户,尤其是数据消费者提供即时洞察。这种优化的数据集成过程确保在发现和利用数据的过程中不会浪费太多时间。持续交付根据规模效应理论,访问组织持有的数据的人越多,从中提取的见解就越有价值。然而,数据的可访问性取决于数据的治理。只有通过DataOps在整个组织中实施数据治理,才能确保数据可访问性,同时保持安全性和隐私性。为了确保数据能够以符合内部数据质量和数据屏蔽规则的协同方式交付给内部和外部数据消费者,我们通常需要使用智能数据平台来实现这一点。也就是说,只有保证数据的质量、隐私和安全,各利益相关方才能放心使用,从中获得准确的洞察,而不必担心数据治理带来的影响。持续部署如今,欺诈检测、AI聊天机器人、数字销售和供应链管理等关键任务功能都需要数据驱动的应用程序,这些应用程序可以根据最新的可用数据实时做出决策。持续部署是确保用户和应用程序能够无缝访问数据的先决条件。DevOps和DataOps虽然DataOps借鉴了DevOps的基本概念和操作流程,但是两者还是有显着的区别:作为算法、模型和视觉辅助工具。同时,还应具备实用的软件工程思维。流程尽管DevOps流程几乎不涉及编排(orchestration),但DataOps流程需要数据管道和分析开发的编排。测试与DevOps不同,DataOps在很大程度上依赖于数据屏蔽来进行测试。因此,测试数据的管理非常重要。此外,DataOps通常需要在部署之前的数据管道和分析开发期间测试和验证数据。工具目前,DevOps拥有成熟的工具生态,尤其是在测试方面。作为一种新方法,DataOps通常需要团队从头开始构建工具或为其特定目的定制DevOps工具。DataOps平台的演变在数据分析的早期,ETL(提取、转换、加载)工具已成为管理大量导入数据的强大工具。然而,随着数据多样性、准确性和数量的激增,人们对可扩展性和实时数据分析的需求变得更加迫切。ETL工具与云计算资源的结合加快了数据分析的速度,但数据访问的安全性依然严峻。在这样的背景下,DataOps应运而生。通过采用民主化的数据访问方式,所有数据需求方都可以在组织数据治理策略的约束下,安全、高质量地获取数据洞察。原标题:AGuidetoDataOps:TheNewAgeofDataManagement,作者:MirAlimanagement