当前位置: 首页 > 科技观察

一味追逐“数据中台”,迟早要吃药!

时间:2023-03-14 23:20:24 科技观察

数据中心的概念逐渐流行起来,但是什么是数据中心呢?我应该建数据仓库、大数据平台还是数据中心?相信看完这篇文章,你会有一个清晰的认识!PicturePexels上的各种新名词层出不穷:顶级的有数字城市、智慧地球、智慧城市、城市大脑;企业层面包括数字化转型、互联网经济、数字经济、数字平台;平台级包括物联网、云计算、大数据、5G、人工智能、机器智能、深度学习、知识图谱;技术方面包括数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等,总之就是你唱他出场,各种概念漫天飞舞!在新经济的竞争过程中,其实竞争的是流量,也就是用户,但流量不等于用户,用户也不完全等于流量;有了流量和用户,就相当于在争夺用户的话语权。各种互联网概念也是如此。从传统数据仓库或大数据平台的角度来看,金融或通信运营商在数据治理、数据管理、企业模型、应用性能、高可靠性等方面绝对不比BAT差。.但是,这些行业有国企的束缚,同时承担了太多的安全、隐私、稳定的需求。他们没有用户和数据,对外却很难发挥应有的作用,导致在整个信息技术行业的话语权很低。互联网企业在数据使用的灵活性、技术的前瞻性、经济效益的引导性、适度的容错性等方面都远超其他行业。因此,产业之间的相互吸收和借鉴也值得探讨。新名词的出台,必须得到大众的接受,背后必须有话语权的支持。当然,目的只是为了利益,不排除个别技术人员的好主意和初衷。数据中心的初衷又回到了正文。反正数据中心的概念已经逐渐流行起来,但是什么是数据中心呢?我总结了以下五点:①数据中台是聚合和管理跨域数据。将数据抽象封装成服务,为前台提供业务价值的逻辑概念。②数据中心是一套可持续的“让企业数据用起来”的机制,一种战略选择和组织形式,基于企业独特的商业模式和组织架构,以有形的产品和实施方法论为支撑,构建一套机制不断将数据转化为资产,服务于业务。③数据中台打通数据前后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析和挖掘服务,避免企业投入大量高成本、重复的数据分析需求为了满足特定部门。数据开发成本。④数据中心是指通过数据技术对海量数据进行采集、计算、存储、处理,同时统一标准、统一口径。数据中心将数据统一后形成标准数据,然后存储形成大数据资产层,进而为客户提供高效的服务。⑤数据中心,包括平台、工具、数据、组织、流程、规范等,关系到企业数据资产如何使用。以上概念是从网上搜索复制过来的。总的来说,无论是中台还是数据中心,都还缺乏一个标准的定义。只是从字面上理解,数据中台就是解决如何用好数据。问题。既然是一个概念,数据中心也被赋予了很多扩展的外延,也上升到了数据的采集、计算、存储、处理、数据治理等方面。大重叠。大数据平台是从数据仓库发展而来的。那么这三者是什么关系呢?本人断断续续从事数据仓库行业大概有五六年的时间,有四五年的经验负责大数据平台的整体设计架构和项目实施。见证了从传统数据仓库向大数据平台转型的全过程。包括第一个MPP数据集市、第一个Hadoop集群项目、第一个流数据处理项目、第一个完整大数据平台的集成构建、混合大数据平台的集成构建、大数据平台迁移,etc.我体验过的大数据平台,从规模上说不上大也不小。每天处理的数据量近20T(每月实时处理约10T),集群总计约300台(含Hadoop节点约200个),总容量约8P,实际使用容量大约是5P。包括从数据仓库到大数据平台的数据模型重构,以及数据模型的扩展;还包括大数据平台提供的各种内部应用的规划,以及大数据应用的对外提供。因此,对数据仓库和大数据平台的优缺点、各自存在的问题、疑惑、发展方向,包括新数据平台的发展方向,有了一定的了解,结合自己以往的经验,谈谈自己的一些想法。按照传统的定义,数据仓库是面向主题的、集成的、相对稳定的反映历史变化的数据集合,用于支持管理决策。从数据的角度来看,数据仓库更适合传统的数据库,是离线收集的。数据一般都是结构化的,每天处理的数据量不容易超过TB集。数据仓库一般在几十T到几百T之间。数据仓库一般满足内生应用,满足内部决策支持和分析需求。当然,随着数据仓库的数据采集要求越来越高,数据仓库本身也在不断完善。从单机ETL到集群ETL,从传统小型机+DB到PC服务器+分布式DB。数据治理也在逐步加强,从元数据管理到数据质量管理,再到数据运维管控和数据安全管控。但实际上,数据仓库留给企业最大的财富就是企业数据模型。随着前端业务系统的发展变化,这些模型也在不断变化,不断增加,不断丰富和完善。即使系统没有了,也可以在短时间内快速重建,这是大数据平台能够快速搭建的重要原因。大数据平台是指主要处理海量数据存储、计算、流式数据实时计算等场景的一套基础设施,包括统一的数据采集中心、数据计算存储中心、数据治理中心和运营中心。和维修管控中心。,打开共享中心和应用中心。大数据平台之所以能够搭建起来,不外乎是内因和外因:外因是棱镜门事件带来的IOE去除需求、外部硬件的变化、分布式开源技术的出现。内在原因是数据的非结构化、实时性以及海量数据的计算和存储压力。企业也希望大数据平台除了满足内部需求外,还能获得一定的外部收益。大数据平台建设的出发点是节省投资、降低成本,但实际上无论是硬件投资还是软件开发都远远超过了数据仓库的建设。大量的硬件与各种开源技术相结合,增加了研发难度、调测部署周期、运维复杂度,人力投入是初期的数倍。还有很多技术难点不是一蹴而就的,但是大数据平台反正已经搭建好了,人员的能力也在不断的成长。大数据平台解决了海量数据和实时数据的计算和存储,实现了基于企业原有数据模型的重构,但也面临着一系列问题。首先是数据的应用。无论是数据仓库还是大数据平台,都包括接口层数据、存储层数据、轻汇总层、重汇总层、模型层数据、报表层数据等。各种表有几千种,其中一些表是中间处理,有的是一次性报表,不同表之间的数据一致性和口径会有所不同,不同表的不同字段对数据的安全性也有不同层次的要求。此外,还要考虑多租户资源安全管理,如何让内部开发人员快速获取所需的数据资产目录,如何读取相关数据的来龙去脉,如何快速实现开发。这些在大数据平台建设初期都没有充分考虑。另一个问题是外部应用程序。随着大数据平台的应用建设,各个对外应用采用单一数据库、单一应用的构建模式,独立考虑网络安全、数据安全、共享安全,逐步走向烟囱式发展。道路。数据仓库实现企业数据模型的构建,大数据平台解决海量实时数据的计算和存储问题。数据中心要解决什么?数据如何安全、快速、最少授权、可追溯?探索并快速应用问题。数据中心不应过度承载平台的计算、存储和处理任务,而应放在解决企业逻辑模型的构建和存储、数据标准的建立、数据目录的梳理、定义等方面。数据安全和数据资产管理。开放,构建知识图谱。通过一系列的工具、组织、流程、规范,实现数据前端与后端的打通,突破数据局限,为企业提供更加灵活、高效、低成本的数据分析和挖掘服务,并防止企业用某些数据分析来满足某些部门。因需求而产生的大量高成本、重复性的数据开发成本。厚平台、大中平台、小前台;没有坚实庞大的大数据平台,就不可能建设数据能力强、功能强的数据中心;没有大数据中台,要快速搭建一个小巧、快速、智能的小前台也只是理想化。我想这就是DataCenter的初衷。我应该建数据仓库、大数据平台还是数据中心?以下是数据仓库、大数据平台、数据中心的一些总结架构资料。下面的文字和各种架构图就不用赘述了。数据仓库硬件架构图数据仓库功能架构图数据仓库技术架构第一个Hadoop平台的硬件架构主要是解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据和汇总数据存储,在报表中实现报表MySQL数据存储。第一个流处理平台的硬件架构主要是解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据和汇总数据存储,在MySQL中实现报表数据存储;并通过实时事件处理集群实现流式事件匹配。对于大数据平台各个软硬件组件的规划,如下图所示:大数据平台系统规划大数据平台系统定位大数据平台逻辑部署架构大数据平台功能视图大数据平台数据流向大数据平台内部硬件架构大数据平台整体硬件架构数据中心整体架构作者:王宝强编辑:陶家龙来源:转载自微信公众号梦想IT人(ID:baoqiangwang2020)