区分BI、数据仓库、数据湖、数据中台的内涵和区别例如,从最初的决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆。本文系统地分析了这些术语及其内涵,使读者能够对数据平台相关概念有一个全面的认识。1、数据仓库 数据仓库平台逐渐从BI报表为主,到分析为主,再到预测为主,再到以运营智能为目标。数据仓库发展阶段事业部 商业智能(BI,BusinessIntelligence)是以为决策提供分析运营数据为目的而建立的信息系统。属于在线分析处理:OnLineAnalyticalProcessing(OLAP),将预先计算好的汇总数据存储在魔方数据库(Cube)中,提供对复杂分析查询的快速响应。前10年有很多BI报表项目,是数据仓库项目的预热项目(主要分析为主的阶段是数据仓库的初级阶段),制作了一些可视化报表来展示经理们。它利用信息技术,将分散在企业内外的各种数据整合、转化为知识,并根据某些特定的学科要求进行决策分析和计算;用户使用报告、图表和多维分析。找到解决业务问题所需的解决方案;这些结果将呈现给决策者以支持战略决策和定义组织绩效,或者集成到智能知识库中并自动推送给客户。1.1数据仓库的基本定义 数据仓库是一个面向主题(SubjectOriented)、集成(Integrated)、相对稳定(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,以支持管理决策和全局共享的信息。其主要功能是通过数据仓库理论独特的数据存储结构,将组织机构历年来通过信息系统联机事务处理(OLTP)积累的大量数据进行系统的分析和整理,从而便于在线分析处理(OLAP)和数据挖掘(DataMining)等多种分析方法,进而支持决策支持系统(DSS)和执行信息系统(EIS)的创建,帮助决策者快速有效地从大量数据中进行分析大量的数据提供有价值的信息,以方便决策制定和快速响应外部环境的变化,有助于构建商业智能(BI)。所谓主题:是指用户在使用数据仓库进行决策时关心的关键方面,如:收入、客户、销售渠道等;支持系统按业务功能组织。所谓集成:是指数据仓库中的信息不是简单地从各个业务系统中提取出来,而是经过一系列的加工、整理、汇总过程,因此数据仓库中的信息是整个系统的全局一致信息。企业。所谓随时间变化:是指数据仓库中的信息不仅仅反映企业当前的状态,而是记录从过去某一点到当前阶段的信息。通过这些信息,可以对企业的发展历史和未来趋势进行定量分析和预测。数据仓库的逻辑架构1.2数据仓库系统的功能和定位 数据仓库系统的功能是实现跨业务线、跨系统的数据集成,为管理分析和业务决策提供统一的数据支持。数据仓库可以从根本上帮助您将公司的运营数据转化为高价值的可访问信息(或知识),并在正确的时间以正确的方式将正确的信息传递给正确的人。数据仓库的作用是为企业中高层管理人员进行业务分析和绩效考核的数据整合、分析和呈现的工具;主要用于历史、全面、深入的数据分析;数据来源为ERP(例如:SAP)系统或其他业务系统;能够提供灵活、直观、简洁、易操作的多维度查询和分析;不是日常交易操作系统,不能直接生成交易数据; 实时数据处理的数据仓库,非结构化数据处理能力较弱,在业务预警和预测方面的应用相对有限。1.3数据仓库可以提供什么?数据仓库可以提供价值。1.4数据仓库系统组成 数据仓库系统不仅包括分析产品本身,还包括数据集成、数据存储、数据计算、门户展示、平台管理等一系列其他产品。数据仓库产品构成数据仓库产品构成2.DataLake DataLake(数据湖)是由Pentaho的CTOJamesDixon提出的(Pentaho作为一家BI公司,在概念上相当先进),它是一种数据存储哲学——即在系统或存储库中以自然格式存储数据的方法。2.1维基百科对数据湖的定义 数据湖(DataLake)是存储企业各种原始数据的大型仓库,其中的数据可以被访问、处理、分析和传输。数据湖是以其本机格式存储的数据系统或存储库,通常是对象blob或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。资料来源:维基百科。 目前,Hadoop是部署数据湖最常用的技术,所以很多人认为数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop就是用来实现这个概念的技术。数据湖处理架构图数据湖2.2数据湖可以为企业带来多种能力 数据湖可以为企业带来多种能力,比如可以实现数据的集中管理,企业可以挖掘很多以前没有的能力。以前没有。此外,数据湖结合先进的数据科学和机器学习技术,可以帮助企业构建更优化的运营模式,也可以为企业提供预测分析、推荐模型等其他能力。这些模式可以激发企业能力的后续。增加。数据湖可以通过以下方式帮助企业:实现数据治理。通过应用机器学习和人工智能技术实现商业智能。预测分析,例如特定领域的推荐引擎。信息跟踪和一致性保证。根据历史分析生成新的数据维度。有一个集中的数据中心,可以存储所有的企业数据,有利于实现为数据传输而优化的数据服务。帮助组织或企业做出更灵活的业务增长决策。2.3数据仓库与数据湖的区别在存储方面,数据湖中的数据是非结构化的,所有数据都保持原始形态。所有数据仅在分析时存储和转换。数据仓库通常是从事务系统中提取数据的地方。数据在加载到数据仓库之前经过清理和转换。在数据捕获中,数据湖捕获半结构化和非结构化数据。另一方面,数据仓库捕获结构化数据并将其组织成模式。数据湖的目的是非结构化数据,数据湖非常适合深度分析。数据科学家可以使用具有预测建模和统计分析等功能的高级分析工具。而数据仓库是数据仓库,非常适合月度报告等操作用途,因为它是高度结构化的。在数据湖的架构中,通常,架构是在存储数据之后定义的。使用更少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。表1.数据仓库、数据湖、数据湖的区别如下:3.数据中台的背景3.1积累了大量的企业数据资产。受限于传统的数据仓库技术,数据管理和分析能力已经成为信息化工作的短板。企业信息系统众多,系统独立管理,数据存储分散,横向数据共享和分析应用仅由特定业务驱动,难以对全局数据进行价值挖掘,无法真正体现价值集团庞大的数据资产规模和效应。市场竞争和产业链日益全球化。企业不仅仅满足于对内部数据的分析,更多的是通过互联网、微信、APP等新技术结合外部市场数据进行整体分析。 (1)传统的数据仓库无法满足数据分析的需求。 企业在数据分析应用上呈现“五大变化”(从统计分析到预测分析,从单一领域分析到跨领域分析,从被动分析到主动分析,从非实时分析到实时分析,从结构化数据转型到多元化),对统一数据中心平台的需求强烈,这对数据中心平台的计算能力、核心算法、数据综合性提出了更高的要求。 (2)数据中心的处理架构发生了变化。 一是基于Hadoop、Spark等分布式技术和组件的“计算存储混搭”数据处理架构,可支持批量、实时的数据加载和灵活的业务需求。其次,数据预处理过程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,是构建数据仓库的重要环节,即用户从数据源中提取需要的数据,清洗数据,将数据加载到数据仓库中。大数据背景下的架构体系是ELT架构,根据上层应用需求,随时从数据中心提取需要的原始数据,进行建模分析。3.2数据中台建设是数字化转型的关键支撑 数据中台成为热点。沉淀工具和技术。数据中台是指集数据采集与交换、共享与集成、组织与处理、建模分析、管理与治理、服务应用为一体的综合数据能力平台。它是大数据生态中的连接功能,为数据应用支撑能力提供基础。 广义上,给数据中台一个企业级的定义:“聚合管理跨域数据,将数据抽象封装成服务,为前台提供业务价值的逻辑概念。”数据中台建设是数字化转型的关键支撑 中台战略的核心是数据服务的共享。中台战略不是搭建数据平台,而是中台的大部分服务都是基于数据的。数据中台是围绕为上层应用提供数据服务而构建的。中台策略允许数据平台和业务系统共享数据。它们之间形成良性闭环,即实现了应用与数据的解耦和紧密交互。敏捷前台:一线作战单元,强调敏捷交互、稳定交付的组织能力建设。业务中心:能力固化赋能,固化通用能力,赋能一线部队,提升配置效率,加速一线响应、产品化、业务化,开辟新生态。数据中台:资产整合共享、多维数据融合、资产统一管理、数据孤岛连接、数据资源共享、数据深度挖掘、资产价值盘活。后台稳定:专注于共享中心建设,为前中台提供专业的内部服务支持。3.3数据中心平台的定义和处理结构 数据中心平台是指对企业内外多源异构数据的采集、治理、建模、分析和应用,以优化对内和外部数据的管理。改善业务和外部。释放数据合作价值,成为企业数据资产管理的中枢。数据中心建立后,将形成数据API,为企业和客户提供高效、多样的数据服务。数据中心平台架构图 数据中心平台整体技术架构采用云计算架构模型,将数据资源、计算资源、存储资源全面云化,利用多租户技术对资源进行打包整合和开放他们起来为用户提供“一站式”数据服务。 利用大数据技术对海量数据进行统一采集、计算、存储,并采用统一的数据规范进行管理,将企业内的所有数据进行处理,形成标准化数据,挖掘出对企业最有价值的数据,并构建企业数据资产库,提供一致、高可用的大数据服务。 数据中心不是一套软件,也不是一个信息系统,而是一系列数据组件的集合。企业根据自身的信息化建设基础、数据基础和业务特点,定义数据中心的能力。能力定义使用数据组件构建自己的数据中心。3.4数据中心带来价值 数据中心在企业数字化转型和可持续发展中发挥着至关重要的作用。数据中台为解耦而生,企业建设数据中心最大的意义在于实现应用与数据的解耦。这样,企业就可以不受限制地构建满足业务需求的数据应用。构建开放、灵活、可扩展的企业级统一数据管理和分析平台,实现内外部数据按需链接,打破数据系统边界。利用大数据智能分析、数据可视化等技术,实现数据共享、日报自动生成、快速智能分析,满足集团总部及各级各分公司的数据分析和应用需求。深度挖掘数据价值,助力企业实现数字化转型。实现数据目录化、模型化、标准化、责任化、安全化、可视化、共享化等管理,实现数据的集中存储、处理、分类和管理,建立大数据分析工具库、算法服务库,实现报表生成自动化,数据分析数据挖掘的敏捷性和可视化使数据质量评估和落地管理流程成为可能。4.传统数据仓库与数据中心的区别数据中心与传统数据仓库技术路线对比表对数据仓库、数据湖、数据中台的内涵进行了详细的讲解,让读者更好地理解和掌握相关概念在数据字段中。 最后总结一点:数据中心平台更好地支持数据预测分析、跨域分析、主动分析、实时分析、多样化的结构化数据分析。数据中心平台的建设是我们企业数据服务和共享的重要基础,可以加速数据从数据到价值的过程,构建相应的业务能力。(感谢:蔡春久老师的专业指导)
