当前位置: 首页 > 科技观察

云原生数据中台技术及趋势解读

时间:2023-03-14 13:24:31 科技观察

数据中台的发展大体经历了数据库—数据仓库—大数据平台—数据中台四个重要阶段。每一次新的改变都是为了解决前一阶段存在的问题。目前,向云原生迈进成为数据中台是必然和必要的。1、云原生从何而来?云原生是一种用于指导如何在云上构建和运行应用程序的方法论。我们认为“云原生”并不是一个新概念。回顾云计算的历史,从个人应用到企业级应用,都早已开始“上云”。起初,这些云端上的“非原生”应用延续了私有化部署的技术架构,本地软件通过ECS原封不动地迁移到云端。ECS的缺点是只能承载计算,不能实现存储。上云后的应用虽然实现了业务连通,但随着业务的扩大,原有架构的“可用性”明显下降。为解决数据存储问题,国内云厂商生产了云盘,挂载在云主机上,实现不改程序的数据备份。解决了传统软件在云端的“高可用”问题。然而,这种方法导致了另一个缺点——成本高。客户直接将Hadoop部署到ECS节点,不做任何修改,数据通过HDFS存储在云盘上,成本会很高。因此,HDFS的底层必须进行改造,将数据存储在对象存储上。随着需求的不断丰富,系统必须根据IaaS和PaaS的技术特点进行重构,才能跟上业务和数据的爆发式增长。在上一代传统技术私有化部署和软件架构运维方法论的基础上,以“高可用”、“低成本”等属性,对“云原生”进行了升级。2、云原生数据平台的技术要素有哪些?“云原生”这个概念从发展至今,我们并不陌生。为什么要强调“云原生数据中心就是未来”?分层多域数据治理的刚需,云原生技术降本增效的天然特性,国产基础设施自主可控的诉求……都在推动数据中心走向云原生。因此,我们将云原生数据平台的技术要素概括为六点:CI/CD(持续集成与持续交付)、容器化、对象系统、存储计算分离、跨云多域数据治理、以及元数据管理。1.CI/CD(持续集成和持续交付)CI/CD的本质是提高开发和部署效率。在业务量巨大的情况下,大数据和云的运维人工成本极高。因此,需要大量使用自动化工具和大数据预测算法进行自动化运维。通过版本管理系统和DevOps基础架构进行自动化测试和持续集成。一个典型的流程是程序员将代码提交到特定的标签,触发测试接口的自动化测试脚本的执行并发送报告。这可以实现测试、发布和部署自动化。在此基础上,构建特定的数据环境,自动检测重要接口和链路。2、容器化容器化本质上是一种虚拟化技术,一台主机可以虚拟出数千个容器。单个容器启动时间更快,占用空间更小,可以根据实际应用的大小弹性分配资源,无需购买额外的服务器,加快研发速度。使用容器编排基础架构管理服务和作业,杜绝版本地狱,大幅提升运维和集成效率。容器化编排和CI/CD交织在一起。在数据中心领域,往往是几十台机器、上百个进程同时运行,而在这些进程中,不仅要运行自己的程序,还要运行客户的程序。因此,底层的微服务有很多进程。根据安全合规性要求,程序需要在客户之间分开。因此,数据中心对容器化的要求高于其他云原生应用。3、对象系统根据现有业务抽象核心对象,以标准Restful风格提供API服务,将核心对象与业务层服务解耦,满足不同环境、不同业务场景的需求。这一系列正交的核心对象构成了平台对象体系,上层服务可以在平台对象体系上高效构建应用和演进。对象系统的API应该是优雅的和向前兼容的,并且一旦发布就很难改变。比如开发WIN32的时候,出现了某个字的错误,几十年后也改不了了。因此,对象系统需要设计得极其细致和准确。4.存储与计算分离由于云的分布式特性,数据不能自然地存储在云上的ECS中。因此,关键数据和状态数据必须存储在对象存储中。大量的私有组件需要重写。如果将Hadoop、Spark等传统开源大数据引擎直接应用到云主机上,海量数据带来的存储成本和吞吐压力很快就会压垮客户。因此需要引入中间缓存来实现计算和存储分离,将数据存储在对象存储中,并兼容HDFS协议。可根据业务需求进行弹性扩展,可大幅降低成本,提升集群性能。5、跨云多域数据治理云原生数据中台的优势之一就是可以实现跨云多域。比如客户使用AWS上的数据中心,一旦需要转移到其他平台,可以直接迁移云原生数据中心,无需修改代码。对于业务多、数据量大的大型企业,供应商必须多样化,才能避免数据资产被一个平台束缚。因此,客户在与供应商合作的同时,还需要借助独立的第三方数据中心提供跨云、多域的数据治理能力,从而提高基础设施的可控性和安全性。6.元数据管理由于数据量的快速增长,数据管理成为一个主要问题。平台在云原生数据中心的元数据管理功能,对数据结构、指标、标签、权限、上下游血缘关系、生产运营等元数据进行标准化管理,建立智能数据治理体系。同时支持数据清查、安全审计、血缘关系分析、密钥分类等应用,最终实现数据资产化。例如,某顶级品牌拥有73个业务系统,每个系统都存储在不同的数据库和存储介质中。需要将所有73个系统集中在一个数据中心进行标记。在这种需求下,数据治理就显得尤为重要,核心就是元数据的管理。因此,云原生数据中心必须具备元数据管理功能。3、云原生数据中心能为用户解决什么问题?具备以上六大技术能力的数据中心,是云原生后的一次重要升级。基于这些能力,云原生数据中心能为用户解决哪些问题,带来降本增效?1.提升研发效率通过微服务、CI/CD、对象系统、DevOps等一系列技术,提升迭代速度,增强云端复杂环境下的管控和自动化运维管控。提高代码开发、测试和发布效率,降低迭代成本。2.降低运维成本通过上述技术,可以实现开发和运维的高效协同,有效提升故障响应速度,实现持续集成和持续交付。使快速应用部署成为业务流程和企业竞争力的重要组成部分,降低运维成本。3.降低存储和计算成本大数据基础设施的存储和计算成本是惊人的。存储计算分离和容器化可以更高效地利用IaaS资源,降低存储成本。存储和计算节点分离后,可以在不扩展存储容量的情况下快速增加计算资源。另一方面,单个容器的启动时间更快,占用空间更小,可以根据实际应用的大小弹性分配资源,无需购买额外的服务器。4.提升治理效率治理效率不仅仅局限于数据治理,还包括微服务治理、系统治理、API治理,这都需要自动化的设计和框架。跨云治理、元数据管理等技术的运用,将大大提高企业积累数据资产的效率,降低安全风险,增加供应商的多元化。