当前位置: 首页 > 科技观察

终于有人说清楚了,数据中心根本就不是真的

时间:2023-03-20 12:27:18 科技观察

1。数据中心的功能架构数据中心的建设是一项浩大的工程,涉及到整体规划、组织建设、中台落地运营等工作,本节重点介绍如何从数据中心建设企业的数据中心。物理形式。一般来说,企业的数据中心在物理上分为三大层:工具平台层、数据资产层和数据应用层。1.工具平台层工具平台层是数据中心的载体,包括大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全为一体的大数据平台;它还包括数据中心建设的一系列工具,例如离线或实时数据开发工具、数据连接工具、标签计算工具、算法平台工具、数据服务工具和自助分析工具。以上工具集基本涵盖了数据中心的数据处理流程。(1)数据开发平台大数据的4V特性决定了数据处理是一项复杂的工程。数据中心的建设需要建设数据中心的基础设施工具。它要满足各种结构化和非结构化数据的采集、存储和处理,要根据场景处理离线和实时数据的计算和存储。处理任务串联起来,保证对数据的操作可以授权给业务方。(2)数据资产管理数据中心建设的成功与否,直接关系到数据资产管理是否有序。如前所述,数据中心需要继续运营。随着时间的推移,数据源源不断地流入数据中心。没有一个有序的数据资产平台进行管理,后果不堪设想。(3)标签工厂标签工厂又称标签平台,是数据中心系统中的明星工具产品。标签建设是数据中心迈向数据商业化的关键一步。因此,强大的标签工厂是平台在数据上价值的有力保障。标签工厂按功能一般分为两部分:底层的标签计算引擎和上层的标签配置管理入口。标签计算引擎一般采用MapReduce、Spark、Flink等大数据计算框架,计算出的标签存储可以使用Elasticsearch或HBase。这样存储的好处是便于快速检索。(4)ID-MappingID-Mapping又称ID接入工具,是数据中心建设的一种选择。可选并不意味着不重要。在一些多渠道、多点触控的新零售企业,没有这个工具,数据质量会大打折扣。(5)机器学习平台在整个机器学习工作流程中,模型训练的代码开发只是其中的一部分。此外,数据准备、数据清洗、数据标注、特征提取、超参数的选择和优化、训练任务的监控、模型的发布和集成、日志的恢复等都是不可或缺的环节。2.数据资产层数据资产层是数据中台的核心层。它依赖于工具平台层,那么这一层的内容是什么?答案因企业的业务和行业而异,但一般来说,可以分为主题域模型区、标签模型区和算法模型区。(1)主题域模型主题域模型是指为业务分析而抽象的业务流程或维度的集合。业务流程可以概括为不可分割的行为事件,如订单、合同、营销等。为了保证整个系统的生命力,需要对主题域,即数据域进行抽象和细化,并长期维护和更新,但不易更改。在划分数据域时,需要覆盖当前所有的业务需求,并保证新的业务可以不影响现有的数据域,也可以方便地扩展新的数据域。(2)标签模型标签模型的设计与主题域模型的方法类似。还需要结合业务流程进行设计,需要充分理解业务流程。标签一般涉及业务流程中的实体对象,如会员、产品、门店、经销商等。一般来说,这些主体穿插在各个业务流程中。例如,会员一般穿插在关注、注册、浏览、订购、评价、服务等环节中。(3)算法模型算法模型更贴近业务场景。在设计算法模型时,需要反复推导算法模型使用的场景,包括模型的冷启动等问题。整个模型构建过程包括七个步骤:场景设置、数据源准备、特征工程、模型设计、模型训练、正式上线、调参。3、数据应用层数据应用层严格来说不属于数据中台的范畴,但数据中台的使命是为业务赋能。几乎所有企业在建设数据中台的同时,都规划了数据应用。数据应用按照数据使用场景可以分为以下多个使用领域。(1)分析与决策应用分析与决策应用主要面向企业领导者和经营者角色。基于企业业务背景和数据分析需求,针对新客户获取、老客户运营、销售能力评估等分析场景。领域模型、标签模型、算法模型,为企业提供可视化的分析题目。在分析决策的应用中,用户可以快速获取企业的现状和问题。同时,可对数据进行下钻、联动分析等,深入分析企业问题及原因,辅助企业管理决策,实现精准管理、智能决策.(2)标签应用标签旨在挖掘物理对象(如客户、商品等)的特征,将数据转化为对业务真正有价值的产品,对外提供标签数据服务。多用于客户圈层选择、精准营销、个性化推荐等个性化场景,实现资产变现,不断扩大资产价值。标签系统的设计是基于标签的使用场景。不同的使用场景有不同的标签要求。例如,在客户个性化推荐场景中,需要客户性别、最近关注的产品类型、消费能力、消费习惯等标签。(3)智能应用智能应用是数字智能的典型外在表现。比如在营销领域,不仅可以实现对千千万万用户的个性化推荐,比如猜你喜欢什么,加购推荐等,还可以利用智能营销工具高精度触达用户,促进首购与二购的转化。提升、失去、保留等2、数据中心平台的技术架构随着大数据和人工智能技术的不断迭代,以及商用大数据工具和产品的推出,数据中心平台的架构设计不需要从零开始,可购买一站式研发平台产品。或者基于一些开源产品进行组装。企业可以根据自身情况进行取舍,但无论采用哪种方案,数据中心平台的架构设计都应以满足当前数据处理的全场景为基准。以开源技术为例,数据中心平台的技术架构如图所示。一般来说,它一般包括以下功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面,包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理。1.数据采集层根据数据的实时性,数据采集分为离线采集和实时采集。DataX和Sqoop用于离线采集,KafkaConnect、Flume、Kafka用于实时采集。在离线数据采集中,推荐使用DataX和Sqoop的组合。DataX适用于数据量较小,使用非关系型数据库的场景,部署方式非常简单。Sqoop适用于数据量大、关系型数据库的场景。2.数据计算层数据计算以YARN为执行调度平台,部署各种计算框架,如MapReduce、Spark、SparkSQL、Flink、SparkMLlib等3.数据存储层数据存储层中的所有存储引擎基于Hadoop的HDFS分布式存储,实现数据冗余,充分利用物理层多个磁盘的I/O性能。在HDFS上构建Hive和HBase作为存储数据库,然后在这两个数据库的基础上构建Impala、Phoenix、Presto引擎。4、数据服务层数据服务层采用与业务应用类似的技术,主要基于开源的SpringCloud、SpringBoot等,采用统一的服务网关。