数据中心最早是阿里提出来的,但是真正火起来是在2018年,我们可以感觉到越来越多的行业文章在谈论数据中心。大量互联网和非互联网企业开始建设数据中心。为什么很多公司开始建设数据中心?虽然说数据中心的文章很多,但是一千个人眼里就有一千个数据中心。什么是数据中心?数据中心包含什么?从2017年开始,当网易在严选有了一定的数据量后,我们就开始规划建设我们的数据中心。目前,我们已经完成了数据中心系统的建设。我将根据我们建设数据中心的经验和方法来尝试回答上述问题。为什么大家都开始搭建数据平台?2018年以来,朋友圈关于数据平台的文章越来越多。当然,用手机看世界并不一定代表看到了真实的世界。我也和各个行业的一些大公司的CIO交流,发现很多行业的大公司都开始组建大数据团队,建设数据中心。结合从文章和交流中得到的信息,我个人感受到了宏观经济对技术的影响。2018年经济开始下行,生意不好做,粗放经营不行了。越来越多的企业希望通过数据驱动进行精细化运营和数字化转型。如上图所示,企业需要数字化转型,需要更多的人脉来与用户/客户建立联系。很多企业需要做自己的公众号、小程序(各个公司的小程序)甚至是APP。我们希望用户更容易找到我们的产品/服务,所以我们需要搜索。我们希望用户需要更多的推荐来浏览/使用我们的产品/服务。我们维护用户/客户的生命周期,根据生命周期采取不同的营销行为,这就需要CRM。我们需要吸引更多的新用户,所以我们需要投放广告。为了更好的投放效果,我们需要构建我们的DMP。当我们的业务做大后,我们需要打击非法生产(羊毛党),让我们的优惠能够真正的用户享受,我们需要风险控制。这一切都需要底层大数据的支持。企业需要精细化运营,因此需要不断提升运营的频率(如下图)和粒度。我们需要将操作的节奏提高到每周、每天甚至实时。我们需要不断地以更精细(细粒度)的方式分析我们的业务,以快速做出业务决策,以便随时随地了解我们的业务运营情况。我们需要能够快速构建大量的BI报表,甚至需要在一些重要的节点(大促)盯着大数据屏幕。如果有能力,我们也可以构建场景化的数据产品来支撑业务决策。这一切都需要底层大数据的支持。如何快速利用底层大数据的支撑,使我们数据化转型和精细化运营的高频迭代,需要我们的数据中心提供强有力的支持。这里也提醒一下,当我们需要大规模的数据应用(搜索/推荐/BI报表...)时,我们需要建设数据中心。因为建设数据中心的投资很大。比如家里人要吃的时候,我自己买菜,在自己的厨房里用普通的厨具做饭。如果是富士康,几万人、几十万人吃饭,就需要建设食品加工配送中心。(模拟数据中心)。本质上是“需求量级的变化导致解决方案发生质变”。所以我们看到的是,大公司基本上都在建设数据中心。虽然你现在可能不适合建设数据中心,但是大家可以借鉴一下数据中心的思路。综上所述,当企业有数据化转型、精细化运营、大规模数据应用需求时,就需要建设数据中台。什么是数据中心?这是成千上万人的疑问。我们的定义是“数据中台是优质高效的数据前端数据系统和数据服务的结合体”。因为规范最终是在系统和服务中实现的,所以规范部分不包含在定义中。数据中台的核心职责是高效赋能数据前台,为业务提供价值。想要了解数据平台,首先要了解数据前台。上面提到的搜索、推荐、BI报表、数据大屏等都属于数据前台。下面我们来看一下网易严选数据系统的示意图,更清楚地了解数据中心的定位。数据中心的下层是数据平台。数据平台主要解决与业务无关的问题,主要是大数据的存储和计算。数据中心的上层是数据前台,主要包括BI报表、数据产品和业务系统。数据中心首先授权分析师以BI报告的形式推动精细化的业务运营。如下图所示,基于数据仓库中的半加工数据,分析师可以根据业务需求,使用言选有数敏捷BI平台快速进行数据可视化和数据分析。严选有书现在每周UV超过800次,每天报告浏览量超过12万次,当前图表7万多条。对于一个业务部门级的BI平台来说,应该算是很不错的成绩了。在此,我们要感谢我们的分析师团队为取得这样的成绩所做的辛勤工作。数据中心还将赋能业务系统开发,通过统一查询服务(主要是统一查询服务和标签服务)辅助业务流程决策。业务系统开发人员基于数据仓库中经过处理的数据模型,利用统一查询服务得到的模型数据,在业务系统中增加辅助决策功能。例如,供应商系统需要对供应商进行评级,供应商评级需要供应商的产品销售数据、评论数据、退货数据、质量数据、供应商采购交货期数据等。数据仓库会根据这些数据对模型进行处理,供应商系统可以通过统一查询得到模型,并在供应商系统中使用。在严选,统一查询服务每天接入67个应用、670个机型、300万次调用。我们自己做的数据产品(如下图)基本上会用到我们数据平台的所有能力支持,包括统一查询服务、标签服务、指标监控服务、数据输出服务等数据服务,同时也会使用strict选择一个数字来创建BI报告并将其上传到数据产品。数据中心包含什么?通过上图,我们初步了解了数据中心包括哪些系统和服务。概括地说,数据中心包括数据仓库系统、数据服务集和BI平台。1、数据仓库系统数据仓库系统是数据中心的核心,数据是新能源和生产资料。数据仓库系统包括数据仓库和一系列管理数据的管理系统,以保证数据的完整性、一致性和准确性。数据仓库系统的组成和关系如下图所示。数据仓库是数据仓库系统的核心,也是整个中台的核心。数据仓库的开发和存储主要依托于网易猛犸数据平台。夸富-埋点管理系统和经纬-数据报送系统从供给侧保证数据的完整性和质量。由于来源广泛(web、ios、android、小程序等)、链接长度、格式(日志的scheme约束),埋点数据一直是数据质量的重灾区。夸富-跟踪管理系统提供跟踪管理、跟踪流程协调和跟踪测试,提供跟踪日志方案,保证跟踪数据质量。经纬-数据上报系统提供数据导入数据仓库和导入时校验功能,提高数据完整性。整个电商业务中有很多业务流程,所有业务流程上线的过程是很长的。当我们的下游数据应用需要某个业务流程的数据,而该业务流程还没有上线时,我们可以通过经纬-填表系统将数据导入数据仓库,下游就可以使用这些数据。仓颉-指数管理系统和穗人-指数地图都是从需求端提高数据(指标)的一致性。仓颉-索引管理系统,顾名思义,管理索引定义。在提供统一索引管理的同时,也提供了索引定义规范的约束。可根据指标定义中的指标口径进行数据开发。Suiren-指标地图提供给业务方查看当前指标分类和指标定义。数据仓库开发本身要解决的核心问题就是质量和效率(所有开发也需要解决),而质量和效率都需要好的架构设计。北斗-数据仓库设计管理系统是完成数据仓库设计的。数据仓库的开发总是非常经验主义的,数据开发的脑子里储存着很多知识。通过北斗数据仓库设计与管理系统,我们推动数据仓库先设计后开发。通过北斗-数据仓库设计与管理系统,数据仓库开发经验知识化、标准化、工具化。数据质量中心(如下图)提供全链路数据保障体系,为任务监控、数据监控、应用监控、影响范围评估和恢复提供支持。2、数据服务集数据服务主要是解决方案在数据场景下的沉淀。数据服务集大大加快了数据应用开发的效率。核心数据服务是统一查询服务和标签服务,为数据应用系统(业务系统和数据产品)提供索引模型和标签模型的统一交付??。统一查询服务核心提供表对接口和数据网关功能。数据仓库管理数据模型表。通过统一查询,数据应用系统可以通过接口访问数据模型表。统一查询服务是数据系统和数据应用系统之间的通用网关,需要提供模型级限流、熔断等网关功能。3.BI平台BI平台我们使用的是严选有书,也就是网易有书严选的版本。网易有书是一款敏捷BI平台,采用端到端的设计理念,类PPT的操作方式,在保证灵活性的基础上,提供极大的操作便利性。在性能方面,基于数据输出的缓存策略结合数据输出服务,大大提升了报表的性能。第一次访问图表的缓存命中率基本稳定在100%,整体缓存命中率超过80%。数据中心的内容很长。本文从严格的选择实践中以非常笼统的方式介绍数据中心。总结:当企业有数据化转型、精细化运营、大规模数据应用需求时,就需要建设数据中心。数据中台是一系列数据系统和数据服务的组合,为数据前端提供高质量、高效率的赋能。数据中心包括数据仓库系统、数据服务集和BI平台。笔者介绍魏文清,现任网易严选数据技术与产品部总监。2007年浙江大学计算机硕士毕业后,加入网易杭州研究院,从事前端开发工作,后历任技术主管、技术经理、技术总监。曾负责网易摄影、网易企业邮箱、易信公众号等产品开发,以及网易前端微专业。2015年开始内部创业,孵化敏捷BI平台——网易有数,担任网易有数总经理,负责产品研发和商业化。2017年开始分管网易严选数据技术与产品部,从0到1构建网易严选数据中心和数据产品体系。
