当前位置: 首页 > 科技观察

我们需要什么样的数据架构?

时间:2023-03-16 13:02:39 科技观察

在大数据和数据科学的新时代,对于企业来说,需要有一个与业务流程一致的集中式数据架构,能够随着业务的增长而扩展,随着技术的进步而演进。成功的数据架构使数据的各个方面变得清晰,使数据科学家能够有效地处理可信数据并解决复杂的业务问题。架构还使组织能够利用新兴技术快速抓住新的商业机会,并通过管理整个企业的复杂数据和信息交付来提高运营效率。与信息架构、系统架构和软件架构相比,数据架构相对较新。数据架构师的角色也比较模糊,落在高级业务分析师、ETL开发人员和数据科学家的肩上。尽管如此,在本文中,作者将使用术语“数据架构师”来指代那些为组织设计数据架构的专业数据经理。说到建筑,我们常常会想到建筑建筑的类比。传统的建筑建筑师计划、设计和审查建筑物的建造。设计过程包括与客户沟通以收集要求,了解当地法律和环境限制,以及与工程师、测量师和其他专家合作以确保设计可行且在预算范围内。这项工作的复杂性实际上与数据架构师的角色非常相似。然而,这两个架构师角色之间存在一些基本差异:构建架构是自上而下的设计,而数据架构通常是预先存在的组件或系统的集成。建筑设计师必须了解完整的建筑要求并在建造建筑之前规划建筑范围。数据模式的范围更广并且可能会发生变化。因此,成功的数据架构设计应该是灵活的和可预测的。建筑建筑师有严格的教育和专业要求,应该在商业、艺术、结构物理和建筑材料方面有深入的研究。而大多数数据架构师来自IT背景,在多个公司或行业拥有专业经验,并且很少接触业务。因此,他们应该意识到他们的设计可能存在偏差,需要根据组织中业务和技术专家的反馈进行调整。建筑设计几乎总是针对从头开始建造的新建筑。因此,建筑建筑师可以完全根据新的要求和材料进行规划和设计。数据架构师没有这个优势。他们很少从头开始,但在为未来设计时需要了解现有的平台和数据库。尽管存在这些差异,数据架构师仍然可以向架构师学习,尤其是在采用自上而下的方法改进数据架构设计方面。许多组织缺乏系统和集中的端到端数据架构设计。下面列出了一些主要原因:一家公司有多个IT部门,每个部门都使用自己的数据标准和架构。应用程序和流程是根据个人业务需求构建的,没有可遵循的数据架构标准。数据架构师角色专注于有限的技术领域,并且对数据业务的了解有限。在管理IT项目时,在设计阶段不考虑数据架构,数据科学家和工程师可以在不遵循一致的数据管理流程的情况下编写代码。由于这些缺陷,我们经常看到一家公司的数据系统脱节,团队和部门之间存在差距。这些差异导致系统性能不佳、移交工作量大、生产数据出现问题时的故障排除时间长、缺乏在整个系统中寻找正确解决方案的责任,以及缺乏评估产品变更影响的能力。最后,在迁移脱节的系统或重新设计下一代平台时,需要花费大量精力进行分析和研究。考虑到所有这些因素,一个成功的企业需要有一个以业务流程和运营设计为基础的自上而下一致的数据架构。特别是,就像建筑架构师一样,企业数据架构师需要在概念和逻辑层面构建蓝图,然后再将技术应用于详细的应用程序设计和实现。1.基于业务流程和运营的概念级数据架构设计在现代IT中,业务流程由数据实体、数据流和应用于数据的业务规则共同支撑和驱动。因此,数据架构师需要具备深入的业务知识,包括金融、营销、产品和业务流程(例如健康、保险、制造商和零售商)方面的特定行业专业知识。然后,他能够通过设计代表每个业务领域的数据实体和分类以及业务流程下的数据流来构建正确的企业级数据蓝图。特别是,在这个概念阶段需要考虑和规划以下领域:核心数据实体和数据元素,例如关于客户、产品、销售的数据。输出客户和客户需要的数据。要收集、转换或引用以生成输出数据的源数据。每个数据实体的所有权以及如何根据业务用例使用和分发它。应用于每个数据实体的安全策略。数据实体之间的关系,例如参照完整性、业务规则、执行顺序。标准数据分类和分类法。数据质量、操作和服务级别协议(SLA)的标准。设计的概念层由支持每个业务功能的底层数据实体组成。蓝图对于企业和系统架构的成功设计和实施及其未来的扩展或升级至关重要。在许多组织中,这种概念设计通常嵌入到由单个项目驱动的业务分析中,而没有从企业端到端解决方案和标准的角度来指导它的方法。2.逻辑层面的数据架构设计由于要考虑使用哪种类型的数据库或数据格式,这种设计有时也称为数据建模。它将业务需求与底层技术平台和系统联系起来。然而,考虑到数据建模者的角色,大多数机构只在特定的数据库或系统中设计数据建模。通过考虑适用于每个数据库或系统的标准以及这些数据系统之间的数据流,应该采用集成方法来开发成功的数据架构。特别是,以下五个方面需要以协作方式进行设计:(1)命名约定和数据完整性数据实体和元素的命名约定应在所有数据库中一致应用。同样,如果相同的数据必须驻留在多个数据库中,则应强制执行数据源及其引用之间的完整性。最终,这些数据元素应该属于数据架构中概念设计中的数据实体,然后可以根据业务需求协同准确地更新或修改。(2)数据归档/保留策略如果在生产的最后阶段经常考虑或建立数据归档和保留策略,会导致资源浪费,不同数据库之间的数据状态不一致,数据查询和更新性能差.为了加强数据完整性,数据架构师根据操作标准在数据架构中定义数据归档和保留策略。(3)隐私和安全信息隐私和安全已经成为逻辑数据库设计中的重要考虑因素。虽然概念设计已经定义了哪些数据组件被归类为敏感信息,但逻辑设计应该通过限制访问权限、限制数据复制、特定数据类型和安全数据流来保护数据库中的机密信息,以确保信息安全。(4)数据复制数据复制的一个关键因素是要考虑三个目标:1)高可用性。2)避免通过网络传输数据的性能。3)低耦合以最小化下游影响。但是,过多的数据重复会导致混乱、数据质量差和性能下降。任何数据重复都应由数据架构师检查,并应遵循一些原则和纪律。(5)数据流和管道在这个层次上,数据在不同数据库系统和应用程序之间的流动方式应该被明确定义。同样,这个过程与业务流程和数据架构师概念层面提到的过程是一致的。此外,应在逻辑设计的集成视图中考虑数据摄取的频率、管道中的数据转换以及输出数据的数据访问模式。例如,如果上游数据源是实时的,而下游系统主要用于具有大量索引聚合信息的数据访问(例如频繁更新和插入的昂贵),则需要设计两个管道之间的数据以优化表现。持续治理是数据架构成功的关键因为数据架构反映并支持业务流程,所以数据架构很可能会随着业务流程的变化而变化。随着底层数据库系统的变化,数据模式也需要进行调整。因此,数据架构不是静态的,而是需要持续管理、增强和审计。因此,应采用数据治理来确保在启动每个新项目时正确设计和实施企业数据架构。结论在成功的数据架构中,基于业务流程的概念设计是最关键的要素,其次是强调所有数据库和数据管道的一致性、完整性和效率的逻辑设计。有了适当的数据架构,组织可以看到哪些数据驻留在何处,并确保它是安全的、有效存储的和正确处理的。同样,当数据库或组件发生变化时,数据架构可以帮助机构快速评估影响并指导所有相关团队进行设计和实施。最后,数据架构是企业系统的实时文档,使其保持最新并提供清晰的端到端图景。总而言之,反映端到端业务流程和运营的整体数据架构对于确保公司在经历收购、数字化转型或迁移到下一代平台等重大变革时能够快速高效地向前发展至关重要。