当前位置: 首页 > 科技观察

数据仓库索引系统构建实战!

时间:2023-03-17 11:53:16 科技观察

01指标体系1.痛点分析主要从业务、技术、产品三个角度看:从业务角度看,业务分析场景指标和维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体的业务问题,查找数据,核对确认数据,成本高昂。从技术角度看,指标定义混乱,指标不唯一,指标维护口径不一致;指标制作,重复建设;数据计算成本高;指标消耗,数据导出不统一,重复输出,输出口径不一致;产品视角缺乏系统产品化支持从生产到消费的数据流转,无需在系统产品层面打通;2、管理目标、技术目标,统一指标和维度管理,指标命名、计算口径、统计来源唯一,维度定义规范,维度取值一致,业务目标统一。数据导出、场景化覆盖产品目标指标体系管理工具产品实施;指标体系内容产品实现,支持决策、分析、运营,如决策北极星、智能运营分析产品等。3.模型架构02业务线定义业务版块定义原则:业务逻辑层级抽象和细分实体组织架构的层次可根据企业的实际情况进行。建议最多进行三级拆分。第一级细分可由公司级别确定。积分可根据业务条线的实际业务进行拆分。比如滴滴出行领域业务逻辑层面的两轮车和四轮车,属于出行领域抽象的出行业务板块(一级)。按实体组织架构细分为普惠、网约车、出租车、顺丰。Cars(级别2)可根据实际业务需要进一步细分。网约车可以细分为单车和拼车,普惠又可以细分为单车和企业级。03规范将数据域定义为抽象业务流程或业务分析维度的集合。其中,业务流程可以概括为不拆分的个体行为事件。在业务流程下,可以定义指标;dimensions为测量环境,如乘客呼叫事件,呼叫类型为维度。为了保证整个系统的生命力,需要对数据域进行抽象和细化,并长期维护和更新,变更需要执行变更流程。业务流程是指公司的业务活动事件,如电话下单、付款等都是业务流程。其中,业务流程不能拆分。时间段用于指定统计的时间范围或时间点,如最近30天、自然周、截止时间等。修饰类型是修饰符的抽象划分。修改类型属于某个业务领域。例如,日志域的接入终端类型涵盖APP、PC等修饰符。修饰符是指对统计维度以外的指标的业务场景限制抽象。修饰符属于修饰的一种。例如,在日志域的接入终端类型下,有APP、PC等修饰符。Metrics/AtomicIndicators原子指标和指标具有相同的含义。它们是基于某种业务事件行为的指标,是业务定义中不可拆分的指标。它们的名称具有明确的业务含义,例如付款金额。Dimension维度是度量环境,用来反映业务的一类属性。这些属性的集合构成了一个维度,也可以称为实体对象。维度属于一个数据域,比如地理维度(包括国家、地区、省份等),时间维度(包括年、季、月、周、日等)。维度属性维度属性属于一个维度,比如地理维度中的国家名称、国家ID、省份名称等都是维度属性。指标分类主要分为原子指标、派生指标、派生指标。原子指标是基于对某个业务事件行为的度量。是业务定义中不能拆分的指标。它有一个具有明确业务含义的名称,例如调用量和交易量。衍生指标为1个原子指标+多个修饰符(可选)+时间段,是对原子指标业务统计范围的划分。衍生指标分为以下两种:交易指标:指衡量业务过程的指标。比如通话量,订单支付金额,这类指标需要维护原子指标和修饰符,并在此基础上创建衍生指标。存量指标:是指实体对象(如司机、乘客)的某些状态的统计数据,如注册司机总数、注册乘客总数。此类指标需要维护原子指标和修饰符,并在此基础上创建衍生指标,对应的时间段一般为“截至目前历史上的某个时间”。衍生品指标是在交易指标和存量指标的基础上复合而成的。主要有比率型、比例型和统计平均值型。04模型设计主要采用维度建模方法构建,基础业务明细事实表主要存储维度属性集和度量/原子指标;分析业务汇总事实表是根据指标类别(去重指标,非重复指标)进行分类存储,非重复指标汇总事实表存储统计维度集,原子指标或派生指标,去重指标汇总事实表仅存储分析实体统计标签集。在数据仓库的物理实现层面,指标体系主要以数据仓库模型的分层架构为导向。滴滴的索引数据主要存储在DWM层,作为索引的核心管理。05维度管理包括基础信息和技术信息,由不同的角色维护和管理。基础信息维度对应的业务信息由业务管理者、数据产品或BI分析师维护,主要包括维度名称、业务定义、业务分类等。技术信息维度对应的数据信息由数据研发维护,主要包括是否有维度表(是枚举维度还是独立物理维度表),是否是日期维度,对应的代码英文名和中文名,以及对应的英文名和中文名。如果维度有维度物理表,需要绑定对应的维度物理表,并设置code和name对应的字段。如果维度是枚举维度,则需要填写相应的代码和名称。维度的统一管理有利于以后数据表的标准化,也方便用户查询和使用。06指标管理包括基础信息、技术信息和衍生信息,由不同角色维护和管理。基础信息对应的指标的业务信息由业务管理者、数据产品或BI分析师维护,主要包括属性信息(业务部门、数据域、业务流程)、基础信息(指标名称、指标英文名称、指标定义)、统计算法描述、指标类型(去重、非去重))、业务场景信息(分析维度、场景描述);数据研发维护的技术信息对应的指标物理模型信息,主要包括对应的物理表和字段信息;衍生信息对应关联衍生或派生指标信息、关联数据应用和业务场景信息,方便用户查询哪些其他指标和数据应用使用了该指标,并提供通过指标沿袭分析追溯数据来源的能力.原子索引定义属性信息+基础信息+业务场景信息导出索引定义时间段+修饰符集+原子索引修改类型主要包括类型描述、统计算法描述、数据源(可选)07建模过程建模过程主要是从业务角度,引导工程师对需求场景涉及的指标进行抽象和分类,统一业务术语,降低沟通成本,避免后续指标重复构建。分析数据体系是模型架构中汇总的事实表的物理集合,业务逻辑层根据业务分析对象或场景对指标体系进行抽象和沉淀。滴滴出行主要根据分析对象进行主题抽象,如司机主题、安全主题、体验主题、城市主题等。指标分类主要根据实际业务流程进行抽象分类,如司机交易指标、司机注册指标等、驱动增长指标等。基础数据系统是模型架构中详细事实表和基础维度表的物理集合。业务逻辑层面根据实际业务场景进行抽象,如司机合规、乘客登记等,还原业务的核心业务流程。08开发流程开发流程是从技术角度指导工程师进行指标体系的生产、运维、质量控制。也是数据产品或数据分析师与数据仓库研发之间沟通协调的桥梁。09指标体系图指标体系图也可称为数据分析图,主要是根据实际业务场景,抽象出业务分析实体,对涉及的业务分类、分析指标、维度等进行整合梳理。实体。构建方法:主要通过业务思维和用户视角构建,将业务和数据紧密联系起来,将指标组织成结构化的类别。建设目的:面向用户:方便用户快速定位所需的指标和维度,同时通过业务场景的沉淀指标体系,快速触达用户数据诉求。用于研发:有利于后续指标生产模型的设计、数据内容的边界、数据体系建设的迭代量化、数据资产的落地。▲指标体系图模型▲指标体系图例▲指标体系产品化指标体系涉及的产品集主要按照生命周期进行构建,通过产品工具打通数据流,实现统一化、自动化、标准化和标准化。指标体系管理的过程。因为指标体系建设的本质目标是为业务服务,实现数据驱动的商业价值,所以建设的核心原则是“轻标准,重场景,从管控到服务”。通过工具、产品、技术和组织的融合,用户可以提高数据的使用效率,加速业务创新迭代。其中,与指标体系的方法论强相关的产物是指标字典工具的实现。其产品的定位和价值:从方法到实现支持指标管理规范的工具,自动生成标准化指标,解决指标名称混淆和指标不唯一的问题,消除数据的歧义,提供标准的指标口径和元数据对外信息▲工具设计流程(方法论->定义->生产->消费)▲指标定义▲指标生产10总结文章整体介绍了指标体系构建的方法论&实践以及工具产品的构建,索引字典和开发工具已经实现流程对接,未来与数据消费产品的对接将通过DataAPI提供数据服务。