当前位置: 首页 > 科技观察

数据中心具体包括什么?上篇讲解架构设计和组成

时间:2023-03-18 11:05:03 科技观察

《终于有人把数据中台讲明白了》,上篇讲数据中心的定义和价值。本文将介绍数据中心包括哪些内容。在企业建设数据中心的过程中,哪些能力是必须具备的,哪些能力是可选的,本文将一一揭晓。1.数据中台功能架构数据中台建设是一个庞大的工程,涉及到中台的总体规划、组织建设、实施和运营。本节重点介绍如何从物理形态上构建企业的数据中台。.一般来说,企业的数据中心在物理上分为三大层:工具平台层、数据资产层和数据应用层(见图4-2)。▲图4-2数据中心功能架构1.工具平台层工具平台层是数据中心的载体,包括大数据处理的基本能力和技术,如数据采集、数据存储、数据计算、和数据安全。大数据平台;还包括一系列构建数据中心的工具,如离线或实时数据研发工具、数据连接工具、标签计算工具、算法平台工具、数据服务工具和自助分析工具。以上工具集基本涵盖了数据中心的数据处理流程。(1)数据开发平台大数据[1]的4V特性决定了数据处理是一个复杂的工程。数据中心的建设需要建设数据中心的基础设施工具。它要满足各种结构化和非结构化数据的采集、存储和处理,要根据场景处理离线和实时数据的计算和存储。处理任务串联起来,保证对数据的操作可以授权给业务方。[1]大数据的4V是指Volume(数据量大)、Variety(类型多样)、Velocity(速度快、效率高)、Value(价值密度低)。因此,首先建设大数据能力平台是十分必要的。当然,您可以根据企业的实际情况,决定是采购还是自建平台。(2)数据资产管理数据中心建设的成功与否,直接关系到数据资产管理是否有序。如前所述,数据中心需要继续运营。随着时间的推移,数据源源不断地流入数据中心。没有一个有序的数据资产平台进行管理,后果不堪设想。数据资产管理工具不仅可以帮助企业合理评估、规范和管理信息资产,还可以充分发挥数据资产的价值,促进数据资产的持续增值。对于数据资产管理,我们不推荐事后管理,而应该与数据开发过程挂钩。也就是说,当数据经过数据开发平台处理的链路时,数据资产管理平台就已经悄无声息地介入了。数据资产管理的首要任务是对进入数据中心的元数据进行管理。这里的元数据包括数据源、构建的各种模型、通过模型拆解出来的指标和标签、调度作业等。有序管理这些数据资产的元数据是前提。只有做好这一步,才能持续追踪数据流向,管理指标和标签系统的生命周期,确定指标的使用频率,决定是否下线。(3)标签工厂标签工厂又称标签平台,是数据中心系统中的明星工具产品。标签建设是数据中心迈向数据商业化的关键一步。因此,强大的标签工厂是平台在数据上价值的有力保障。严格来说,标签工厂也是数据开发平台的一部分。我们为什么要把它分开呢?这是因为标签的使用场景丰富,标签与业务紧密结合;同时,标签数据的存储和分析类型数据的存储存在一定差异。标签工厂致力于屏蔽底层复杂的大数据框架,为普通开发者、数据分析师、运营者提供友好的界面交互配置,完成标签的全生命周期管理;同时,为上层业务系统提供自己的API能力,各业务系统形成数据闭环。标签工厂按功能一般分为两部分:底层的标签计算引擎和上层的标签配置管理入口。标签计算引擎一般采用MapReduce、Spark、Flink等大数据计算框架,计算出的标签存储可以使用Elasticsearch或HBase。这样存储的好处是便于快速检索。标签配置管理入口支持将配置的标签规则提交给标签计算引擎,可以定时计算出需要的标签。标签配置和管理门户还提供标准的标签服务应用和调用。通过标签工厂,数据中心团队可以减少大量的数据开发工作。(4)ID-MappingID-Mapping又称ID接入工具,是数据中心建设的一种选择。可选并不意味着不重要。在一些多渠道、多点触控的新零售企业,没有这个工具,数据质量会大打折扣。例如。一位消费者在逛街时看到了一把剃须刀,扫了店内的二维码,正要下单时被朋友的电话打断。回到家打开抖音看到了这款剃须刀的广告,立马打开链接下单。这样的场景在生活中比比皆是,其中隐藏着大量的消费信息。如果我们不通过ID,我们可能至少将同一个用户视为四个用户。其实可以通过扫描二维码留下的OpenID、抖音注册留下的微信账号、下单时提供的订单手机号和注册账号等多条信息组合起来判断是否是是同一个人。这样,可以更准确地为该消费者标注或推荐产品。ID-Mapping功能的构建一般采用强大的图计算功能,通过两对之间的关??系实现互通,自动高效地将关联身份映射为同一身份,即唯一ID数据工具。可以大大降低处理成本,提高效率,挖掘更多的用户信息,形成更完整的画像,极大地促进数字营销的推广。此外,ID-Mapping工具也可用于企业主数据治理。(5)机器学习平台在整个机器学习工作流程中,模型训练的代码开发只是其中的一部分。此外,数据准备、数据清洗、数据标注、特征提取、超参数的选择和优化、训练任务的监控、模型的发布和集成、日志的恢复等都是不可或缺的环节。机器学习平台支持训练数据的高质量采集和高效标注。内置预训练模型,封装机器学习算法,通过可视化拖动实现模型训练。它支持数据处理、模型训练和模型部署作为在线预测服务。通过RESTfulAPIForms与业务应用集成实现预测,打通机器学习的全链路,帮助企业更好的完成传统机器学习和深度学习的落地。(6)统一数据服务统一数据服务旨在为企业搭建统一的数据服务门户,帮助企业在保证数据可靠性、安全性和有效性的同时,提升数据资产的价值。统一数据服务支持通过接口配置构建API和数据服务接口,满足不同的数据使用场景,同时降低数据开发门槛,帮助企业实现数据应用价值最大化。统一数据服务作为唯一的数据服务出口,实现了数据的统一市场化管理,有效降低了数据开放的门槛,保障了数据开放的安全性。2.数据资产层数据资产层是数据中台的核心层。它依赖于工具平台层,那么这一层的内容是什么?答案因企业的业务和行业而异,但一般来说,可以分为主题域模型区、标签模型区和算法模型区。(1)主题域模型主题域模型是指为业务分析而抽象的业务流程或维度的集合。业务流程可以概括为不可分割的行为事件,如订单、合同、营销等。为了保证整个系统的生命力,需要对主题域,即数据域进行抽象和细化,并长期维护和更新,但不易更改。在划分数据域时,需要覆盖当前所有的业务需求,并保证新的业务可以不影响现有的数据域,也可以方便地扩展新的数据域。数据域划分需要先对业务系统进行全面考察。将业务流程划分到哪个数据域并没有绝对的对错,但是会影响报表开发人员定位数据的效率,因此需要从开发人员定位效率的角度进行综合划分。(2)标签模型标签模型的设计与主题域模型的方法类似。还需要结合业务流程进行设计,需要充分理解业务流程。标签一般涉及业务流程中的实体对象,如会员、产品、门店、经销商等。一般来说,这些主体穿插在各个业务流程中。例如,会员一般穿插在关注、注册、浏览、订购、评价、服务等环节中。那么在设计标签时,需要充分了解这些业务流程,发现流程中标签的应用点,并结合这些应用点来构建企业标签系统。标签模型根据计算方式一般分为客观标签和主观标签。客观标签是可以量化的,而主观标签是无法量化的。标签按照实现方式可以分为事实标签、模型标签、算法标签等,按照业务场景标签还可以分为基本信息标签、偏好标签、价值标签等。设计标签模型的关键在于标签模型必须是可扩展的。毕竟标签等数据资产是需要持续运行的,是有生命周期的。运行过程中随时可能添加新标签。(3)算法模型算法模型更贴近业务场景。在设计算法模型时,需要反复推导算法模型使用的场景,包括模型的冷启动等问题。整个模型构建过程包括七个步骤:场景设置、数据源准备、特征工程、模型设计、模型训练、正式上线、调参。以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用于实现产品个性化推荐、销售预测、客户流失预测、产品群优化等新零售场景的算法模型。3、数据应用层数据应用层严格来说不属于数据中台的范畴,但数据中台的使命是为业务赋能。几乎所有企业在建设数据中台的同时,都规划了数据应用。数据应用按照数据使用场景可以分为以下多个使用领域。(1)分析与决策应用分析与决策应用主要面向企业领导者和经营者角色。基于企业业务背景和数据分析需求,针对新客户获取、老客户运营、销售能力评估等分析场景。领域模型、标签模型、算法模型,为企业提供可视化的分析题目。在分析决策的应用中,用户可以快速获取企业的现状和问题。同时,可对数据进行下钻、联动分析等,深入分析企业问题及原因,辅助企业管理决策,实现精准管理、智能决策.在分析主题设计过程中,首先需要根据不同的业务分析场景,采用不同的分析方法进行数据分析预案,构建清晰的数据分析框架。比如在用户行为分析、营销活动等场景中,会用到5W2H分析方法和4P营销理论;在复购客户减少、客单价下降等问题的诊断分析场景中,需要考虑哪些因素与问题相关,采用逻辑树分析法。数据分析框架完成后,结合用户的分析目的,采用不同的分析思路和呈现方式,包括趋势分析、多维分解、漏斗分析、A/B测试、比较分析和交叉分析等。(2)标签应用标签旨在挖掘物理对象(如客户、商品等)的特征,将数据转化为对业务真正有价值的产品,对外提供标签数据服务。多用于客户圈层选择、精准营销、个性化推荐等个性化场景,实现资产变现,不断扩大资产价值。标签系统的设计是基于标签的使用场景。不同的使用场景有不同的标签要求。例如,在客户个性化推荐场景中,需要客户性别、最近关注的产品类型、消费能力、消费习惯等标签。因此,在设计标签系统之前,需要结合业务需求分析标签的使用场景,然后对标签系统和规则进行详细设计。在标签使用过程中,可以通过A/B测试等数据分析手段,持续分析标签使用效果,优化标签体系和规则。(3)智能应用智能应用是数字智能的典型外在表现。比如在营销领域,不仅可以实现对千千万万用户的个性化推荐,比如猜你喜欢什么,加购推荐等,还可以利用智能营销工具高精度触达用户,促进首购与二购的转化。提升、丢失和留存等。在供应链领域,通过数据中心整合用户数据、销售数据、采购数据,实现库存优化,实现自动补货、自动定价。除了传统的统计分析和机器学习,还可以融入深度学习,实现图片搜索,与商城打通,实现拍立得购买;实现房地产行业案件风控人脸识别;集成自然语言处理,实现智能客服问答机器人等,简而言之,以上各层是数据中心的核心内容。需要指出的是,在工具平台层,企业不需要完全独立建设。可以考虑采取借用、采购中端建筑厂商成熟产品的原则。数据资产层和数据应用层与企业数据中台组织的需求密切相关。担心的。2、数据中心平台的技术架构随着大数据和人工智能技术的不断迭代,以及商业大数据工具和产品的推出,数据中心平台的架构设计无需从头开始,一-停止研发平台产品可购买。或者基于一些开源产品进行组装。企业可以根据自身情况进行取舍,但无论采用哪种方案,数据中心平台的架构设计都应以满足当前数据处理的全场景为基准。以开源技术为例,数据中心平台的技术架构如图4-3所示。一般来说,它一般包括以下功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理等。▲图4-3数据中心平台技术架构1.数据采集层根据数据的实时性,数据采集分为离线采集和实时采集。DataX和Sqoop用于离线采集,KafkaConnect、Flume、Kafka用于实时采集。在离线数据采集中,推荐使用DataX和Sqoop的组合。DataX适用于数据量较小,使用非关系型数据库的场景,部署方式非常简单。Sqoop适用于数据量大、关系型数据库的场景。在实时数据采集上,对于数据库的变化数据,比如MySQL的binlog,Oracle的OGG,都采用KafkaConnect进行实时数据采集。其他数据,先将数据实时写入文件,然后使用Flume实时采集文件内容。将实时采集的数据推送到Kafka,由Flink进行数据处理。2、数据计算层数据计算以YARN作为执行调度平台,部署各种计算框架,如MapReduce、Spark、SparkSQL、Flink、SparkMLlib等,MapReduce是最早开源的大数据计算框架。虽然现在它的性能比较差,但是它的资源占用比较少,尤其是在内存方面。因此,在一些数据量过大的场景下,由于硬件资源限制(主要是内存限制),其他计算框架无法执行,可以使用MapReduce作为替代框架。Spark和SparkSQL是成熟的技术方案,在批处理方面性能优异,适用于绝大部分离线处理场景。尤其是在离线数据建模方面,推荐使用SparkSQL进行数据处理,既能保证易用性,又能保证处理性能。Flink是实时数据处理的首选,在时效性、性能和易用性等方面具有很大的优势。机器学习一般使用Spark家族的SparkMLlib作为技术基础。SparkMLlib内置大量常规算法包,如随机森林、逻辑回归、决策树等,可以满足大部分数据智能应用场景。同时,数据中心不断演进,逐步融入AI能力。人脸识别、图片搜索、智能客服等能力的实现需要AI平台。目前比较成熟的AI平台有TensorFlow和PyTorch。为了实现物体检测和识别,可以使用SSD、YOLO、ResNet等深度学习模型,而MTCNN、RetinaNet、ResNet主要用于人脸检测和识别,人脸检索可以使用Facebook开源的人脸检索费斯框架。3.数据存储层数据存储层所有存储引擎均基于Hadoop的HDFS分布式存储,实现数据冗余,充分利用物理层多个磁盘的I/O性能。在HDFS上构建Hive和HBase作为存储数据库,然后在这两个数据库的基础上构建Impala、Phoenix、Presto引擎。Hive是一个广泛应用于大数据的离线数据存储平台。用于存储数据中心的全量数据。在建模阶段,可以使用HiveSQL和SparkSQL进行数据处理和建模。HBase是主流的大数据NoSQL,适用于数据的快速实时读写。实时数据处理时,可以将数据实时保存到HBase中,也可以实时从HBase中读取数据,满足数据的时效性。Impala可以对Hive、HBase等大数据数据库进行准实时数据分析,可以满足对分析结果有一定速度要求的场景。Phoenix是一个建立在HBase之上的SQL层,它允许我们使用标准的JDBCAPI而不是HBase客户端API来创建表、插入数据和查询HBase数据。Presto是一个用于交互式分析查询的开源分布式SQL查询引擎。Presto支持Hive、HBase、MySQL等各种关系型和大数据数据库的查询,支持join表。针对自助分析和统一数据服务对接的场景,可以使用Presto统一访问具体存储的数据库,实现语法统一,数据源统一。4、数据服务层数据服务层采用与业务应用类似的技术,主要基于开源的SpringCloud、SpringBoot等,采用统一的服务网关。