一、数字时代企业级数据中心的残局自2019年第一篇数据中心10万+文章()以来,数据中心从默默无闻到异军突起崛起,现在进入平稳落地阶段,很多企业都把数据中心作为自己标配的数字化设备。但是市场上还是有很多企业同学在问数据中台、数据仓库、大数据平台的区别。经过一年多的沉淀和实践,我个人对企业级数据平台的本质进行了深入剖析,综合了多个行业、企业、厂商对数据平台的多种理解和解读,形成了这篇文章。以供参考。企业数字化转型的终结首先,数据中台服务于企业数字化转型。所以,我们要从企业数字化的最终结果来看数据中心站的最终结果。企业数字化转型的最终结果是传统业务向数字化业务转变。数字化商业的本质是将数据作为一种新的生产要素进行加工,构建以数据为主要存在形式产生商业价值的商业模式。数字化商业的典型代表是天猫、淘宝、抖音、滴滴等互联网公司。天猫、淘宝本身就是一个数字平台,天猫、淘宝本身不生产产品,它搭建一个数字平台,将商家上传的数字产品以数据的形式提供给消费者(天猫店铺,SKU),让消费者放置一个线上以数字形式下单,然后线下连接获取实体世界的实物商品,从而从中获取平台收益。抖音,没有实体产品,用户上传原始数据产品(视频),然后通过信息流和推荐算法推荐给平台用户,产生商业利益。滴滴,某种意义上,类似于天猫、淘宝。它将物理世界的运力、运单、地图等以数据的形式转化为平台产品,提供给消费者和司机进行撮合交易和精准匹配,从而获得收益。差价和增值服务形成商业利益。与传统实体业务相比,数字业务具有升级换代的绝对优势。体现在以下几个方面:分发复制速度快,数字业务分发复制速度快。抖音的一个短视频,一秒可达数十亿用户;灵活、敏捷、高响应,当业务数字化后,具备了面对市场变化的高速响应能力,业务本身就会变得非常灵活敏捷,这样就可以做像A/BTesting这样的数字化测试。实时数据洞察是准确的。业务数字化的特点是所有的业务流程、业务行为、交易都数字化,业务实时变成数据。通过数字化技术,可以对这些数据进行实时处理,形成业务的数字化呈现。表格、全链路、全口径呈现,所有业务可视化,更好更准确理解。海量数据精准预测,拥有全量数据,包括交易、用户、行为数据等,可以形成对未来趋势的预测,从而根据历史数据和用户画像进行精准匹配和推荐,可以产生更多的业务创新和主动性。数字化企业的最终结果对企业的数据处理能力提出了新的要求。未来的数字化企业是以数据为生产要素的制造企业。因此,数字化企业是数据产品和服务的加工厂,如下图所示:每个企业都获取数据,收集数据,然后将数据放入数据加工厂,生产出不同的数据产品。每个企业都会有一个基于数据的创新实验室,开发新的数据产品,比如字节跳动的今日头条孵化抖音,然后沉淀更多的数据生产要素,通过对用户数据的洞察,在创新实验室发现更多的数据产品需求并生产出更多的数据产品。这样就形成了一个连续闭环的数据价值生态。制造业最重要的是生产力,即生产设备、生产线和管理方法。这些对应着数字化企业的数据加工厂。未来,数字化企业的所有员工,无论线上业务人员还是线下业务人员,都将围绕数据开展工作,线下业务人员在开展业务的同时,将实体业务数字化,产生数据。在线分析师处理数据,将其转化为具有商业价值的数据产品;运营商通过数字渠道将数据产品匹配到相应的用户,提高用户满意度。从数据的角度来看,整个企业就是一个数据加工厂。因此,这个加工厂的效率、性能、弹性、运维、监控、管理效率、协同效率都非常重要,这就是数字化企业数据中心的愿景和目标。当我们把企业看成一个数据加工厂时,我们就可以重新定位什么是企业级数据中心。企业级数据中心是数字化企业处理数据的全链路平台。它的输入是数据,输出是各种数据产品和数据服务。拆开企业级数据中心,我们可以看到它的六大核心能力。2、企业级数据平台六大核心能力。数据平台的六能力模型采用了领域建模的思想。企业级数据平台的核心能力可以分为两类。一个是核心业务领域,就是直接存储,处理和生产数据和数据产品的能力,就像工厂生产线中的主要处理设备一样。第二类是辅助生产的管理域,就是让生产过程更加高效、安全、稳定,就像工厂里的传送带、实验室、检测中心、监控运维中心。这样,我们就可以清楚地看到数据中心需要的六大核心能力:业务能力(Business):(1)B1数据采集、存储和处理从源系统获取数据,并将数据存储起来,为其执行适当的形式处理,这是数据处理的第一步。例如,大数据平台通过爬虫、ETL、接口等方式从不同的业务系统获取数据,对数据进行清洗和转换,建模并存储到各种类型的数据库中,如结构化和非结构化、图数据库等等等,这也是我们常说的“业务数据”的最后一公里。(2)B2数据价值的挖掘和挖掘数据获取和存储后,需要对其进行分析、挖掘和挖掘,识别有价值的业务场景数据,从而将数据转化为业务,反应到业务本身。目前这种能力主要是线下根据人的经验完成,线上只是辅助。比如现在的报表,就是一种数据价值的呈现形式。领导要看业务情况,所以用数据可视化的形式汇报给(3)B3数据产品和服务的构建和发布发现数据可以产生价值创建场景后,需要开发这个场景转化为数据产品和服务,并提供给用户。这是数据加工厂的最后一公里环节,也是呈现用户价值的环节。该环节的主要任务是根据发现的数据价值场景,以合适的形式(API、报表、APP、数据包)为客户提供数据产品和服务。管理能力(Management):除了核心领域的数据生产、价值探索和产品开发能力,为了更好地协作,提高数据产品的生产效率,还需要进行大量的管理支撑工作,这是数据中心。管理能力部分主要分为三类(1)M1共享协同企业级数据中台必须具备一站式、全链路的数据开发能力,让所有数据相关的工作者都能工作,这里需要两个主要的子能力。数据共享:就像Netflix的数据中心有一个数据入口,企业数据必须通过一个统一的入口,根据不同的权限进行共享,并开放给相应的用户,方便他们访问数据。数据协作:数据生产环节需要多人协作。例如,源系统提供数据,数据工程师提取和收集数据,数据分析师分析数据,数据可视化工程师完成数据可视化设计。传统上,这些任务都是通过文件来传递,而企业级数据中心需要一个全链路协同的工作环境,让所有角色都可以在这个平台上对同一个数据集进行操作。(2)M2管理和治理应将数据作为资产进行管理和治理。这里的管理主要是指以数据资产目录为中心的相关能力,如数据资产规划、数据资产分类、数据资产获取等。数据资产目录的维护还包括数据权限分级的能力,确保数据在规范的管理体系下应用,避免管理空缺、数据安全、数据分散等问题。数据管理必须从源头做起。一开始,也就是数据中心要对企业级的数据进行统一管理,不仅是数据相关的系统,还有源数据。数据治理是一个老生常谈的话题。以数据标准为核心,对企业数据质量进行管理。数据中台要具备元数据、数据沿袭、数据质量、数据版本等全方位功能,企业级数据中台的数据治理模块不能是一个独立的模块,应该嵌入到数据中心的每一个环节整个数据生产链,从而发挥整个数据链的作用。(3)M3的运维需要将数据作为核心生产要素进行运营。因此,数据中心也需要运营。这里的操作包括分析数据中心的用户行为数据,发现哪些数据集价值高,哪些很少被调用。数据产品和服务应作为互联网产品运营。只有这样,数据中心才能被更多的用户接受,不断迭代新的功能,才能拥有更强的生命力。在未来的数字化企业中,数据中心是一个企业级的生产系统,就像淘宝和天猫一样,是不可能接受宕机的,所以数据中心的运维非常重要,必须保证SLA,在这种情况下,就需要一个自动化的运维系统。当我们将这两大类和六大数据中心平台的核心能力结合起来,就会得到下图中的十二个能力子域:每个企业根据自身情况,十二个能力子域在建设重点和功能上会有差异.一般来说,就商业价值产生的速度而言,数据产品的构建和应用必须先完成。这是最高优先级。必备能力。数据仓库、数据湖、大数据平台和数据仓库的区别当我们把这六种能力分析清楚后,我们就可以更清楚地看到数据仓库、大数据平台、数据湖和数据中台的区别:如下图所示:大数据平台是具有部分数据探索能力的数据存储和处理系统,生产的数据产品主要是数据集,并不全面。数据仓库相对均衡,包括结构化数据的存储和处理,数据探索和挖掘可以以自分析报表(Query)的形式实现。最终的数据产品主要是报表和数据可视化。数据湖侧重于数据的存储和提供,具备部分数据的管理、共享和运维能力。数据中心需要全面具备这六大能力。数据中台不仅要由单一的软件组成,还要有一个系统的企业级数据加工厂,所以数据中台的建设也需要顶层规划,分步建设。【本文为专栏作家“凯哥”原创稿件,转载请通过作者微信公众号shikai590获得授权】点此查看该作者更多好文
