当前位置: 首页 > 科技观察

企业不需要大数据,但一定要有“数据中心”

时间:2023-03-14 19:00:02 科技观察

2015年,马云参观了一家名为Supercell的芬兰游戏公司。公司虽然只有180人,但开发新游戏的速度非常快。公司游戏DAU已突破1亿。2016年,腾讯以86亿美元的价格收购了其84%的股权。这不仅是腾讯历史上最大的一笔收购,也是近年来全球手游行业的最大一笔收购。为什么这家“小公司”这么牛逼?因为他们把比赛需要的通用数据和素材放在一起,供大家使用,实现了业务互通,大大提高了各个团队的效率。不久之后,阿里成立了数据中心团队,随后国内企业纷纷效仿,开始建设自己的数据中心。什么是数据中台:基于那次访问产生的启发,阿里提出了“大、中、小前台”的概念,即业务数据、数据业务,真正实现数据与业务的连接.阿里巴巴数据技术与产品部负责人曾表示:“很多人会把数据比作石油。马云也说过,阿里巴巴将成为全球电商的水、电、煤。我们正在建设的数据中台现在是发挥石油的作用。发电厂的作用。”数据中心绝对不等于数据平台。区别之一在于是否具有业务属性。这也是数据中心出现的一个很重要的原因。是各个前端业务的独立管理,真正实现了不同业务之间的互通。我给大家讲一个我参与过的项目,给大家讲讲数据中心包含的那些东西。1、数据采集为数据中心提供采集数据的能力。它应该提供统一的数据获取和访问方法。数据来源包括内部数据和外部数据。数据类型应支持结构化和非结构化数据收集。传统的ETL工具仍然可以复用,实现数据的获取、转换、加载等关键处理过程。2、数据计算为数据中心提供统一的大数据计算能力。针对不同的大数据处理场景,需要的数据计算能力也不同。一般主要包括批量离线计算、内存计算、在线流式计算等。可学习的技术包括数据挖掘、大数据分析、云计算等。3.数据存储数据中的台中全球数据存储中心,根据不同的数据类型,可以采用图中一种或多种“混搭”架构的数据存储系统。传统数据仓库(如DB2/ORACLE)是最稳定的数据存储方式,承载着对时效性和准确性要求高的企业核心应用。分布式关系数据库,也常简称为MPP数据库,与传统关系数据库相比,具有高性能处理能力和高数据吞吐能力等优势。NoSQL分布式数据库是一种非关系型数据库管理系统,在大数据的简单访问方面具有关系型数据库无法比拟的性能优势。分布式文件系统(HDFS)是目前最常见的大数据存储方式,具有极高的性价比和可扩展性。数据湖作为存储大量复杂格式数据、避免企业数据孤岛的新型数据架构解决方案,可以将不同结构的数据统一聚合存储。4.数据治理是指基于既定的数据规范对数据资产进行的一系列管理活动,以达到获取、控制和传递企业数据资产价值的目的。数据标准管理是指制定和实施数据标准、公共术语、参考数据、数据编码等标准化的管理活动。数据模型管理负责对系统中的核心逻辑模型、物理模型、数据库表、字段、视图等进行统一控制和标准化。5、数据服务包括一些业务相关的、可复用的公共技术组件或产品,如数据目录、数据标签、数据分析、数据开放接口、机器学习算法模型等,可以直接对外提供使用SAAS服务即可也只提供API、消息接口、文件接口、服务接口、SDK软件包等更小粒度的组件能力或数据服务,内部或外部第三方应用无需关心底层数据准备,直接调用数据服务模块提供的服务接口,方便二次开发提升自身能力。为什么要建立数据中心:业界对数据中心的建设经验不足。下面我就来告诉大家如何搭建一个数据中心。经常在手机上看到各种公众号的文章提到数据中台的概念。我也和各个行业的一些大公司的CIO交流过,发现很多行业的大公司都开始组建大数据团队,建设数据中心。中间平台。结合从文章和交流中得到的信息,我个人感受到了宏观经济对技术的影响。2018年开始经济不景气,生意不好做。粗放式管理不再可能。随着数据时代的到来,越来越多的企业希望通过数据驱动,进行精细化运营和数据化转型。20人以上的企业,如果不进行精细化运营,各种问题可能接二连三出现,比如:会议室小打小闹、大业务团队互动不畅、办公沟通成本增加、损失惨重等。办公用品的严重现象等等,日复一日的恶性循环,最终不仅会让管理者和员工感到疲惫不堪,还会惊奇地发现:公司的业绩没有翻倍,管理成本和运营成本却骤然增加,公司陷入持续亏损的泥潭。这个时候,一个连接前后端、负责业务的数据中心的出现就非常有必要了。它可以更好地帮助企业进行精细化运营,从而减少甚至消除上述任何问题。如何建设数据中心:首先要有一个完整的地方,把所有的数据串联起来;第二,数据需要连接和组织;第三,数据必须能够驱动业务增长。其中,只有第二步与软件架构相关,其他两步与软件架构的关系并不是那么密切。第一步是信息化,第三步与管理的关系更密切。首先,数据中心必须与商业价值保持一致。建设数据中心,最重要的不是技术,也不是数据质量,而是数据思维和数据文化。数据思维是建立一种从数据的角度思考问题的方式;数据文化是把数据和业务看成一个整体,而不是仅仅把数据作为支撑工具,想清楚业务对数据的诉求,是构建数据台的第一步。在业务场景还不明确、优先级不明确、价值衡量体系还没有建立的情况下,不要去搭建一个大而全的数据平台。其次,数据中台要从小数据、小场景做起。数据中心是场景化的,不是技术化的。这种业务基础设施与客户的业务、企业结构、信息化发展阶段密切相关。很难买一个大而全的产品来一劳永逸地解决。的。一开始就需要进行顶层设计,针对业务愿景制定中台总体规划,全面梳理数据创新全景蓝图。数据中心全景架构及技术支持。但是在实施的时候,需要从具体的业务场景出发。从一个高价值的数据集场景入手,然后沿着这个场景垂直切入,在数据全景中找到一个或多个数据集,落地到一个小数据场景,从而快速验证价值。大处着眼,拉遍整个世界,避免后续的数据孤岛,而是从小数据集开始,从高度可实现的场景开始。然后一个接一个,业务价值和中台能力同步建立。企业实际案例:数据中心的建立必然伴随着企业结构的调整。除非两家公司的业务相同,否则不会有适用于一家企业的数据中心。构建数据中台,企业可以通过合理规划和复用内部已有的大数据处理工具来支撑建设。可充分借鉴行业数据中台建设实践,从核心需求出发,从一个垂直业务的数据入手,打通数据采集、存储、计算、管理、服务全流程,逐步延伸至全球数据的接入、处理和管理,建设自有数据中心。笔者和阿里的高层在朋友之间聊起了数据中心,他告诉我阿里的数据中心应该是什么样子。阿里的业务中台包含两个数据库,一个是数据生产库,一个是数据中台(历史库),里面包含了所有的历史数据和关键算法。以阿里电商为例,如果用户想购买手机,会在订单页面推荐手机壳、充电宝等相关商品。但值得注意的是,研发并不知道你喜欢它。在服务过程中,需要根据您的一系列消费行为或其他活动的历史记录进行分析。那么问题来了,如果数据量很大,而当前的搜索速度很慢,不可能瞬间找到结果,那怎么办呢?这是数据中心需要做的。把数据堆叠起来做一个序列化的商业模式,然后当你想在商业中心了解某个用户喜欢什么的时候,它可以立即调出结果并反馈。这就是数据中心最大的魅力,这种反馈可能是毫秒级别的。这才是数据中台真正发挥价值的地方,而不是建一个可视化的大屏幕,一听说数据有价值就认为有数据中心,或者建数据中心。这是因为你还没有真正了解这个阶段的数据中心性能。从建设的角度来说,一般需要先建设一个业务中心,然后有一定的数据量,在建设数据中心之前想好如何使用这些数据,然后依次优化业务能力,使业务聪明的。总结:当企业有数据化转型、精细化运营、大规模数据应用需求时,就需要建设数据中台。当然,数据中台的建立不是一蹴而就的,每个企业都应该立足实际,打造自己独有的中台能力。