当前位置: 首页 > Web前端 > HTML

Dataphin V3.6版来了!多项能力升级,助力企业提升全链路数据治理能力

时间:2023-03-28 17:39:22 HTML

DataphinV3.6来了!多项能力升级,助力企业提升全链路数据治理能力。帮助企业用中台方法论管理企业级好数据,打造质量可靠、消费便捷、生产安全经济的企业级数据中心。DataphinV3.6版本全新上线了概念建模、基线运维、全局数据质量监控、数据标准标准落差映射等核心功能,助力企业贯穿以往的全链路数据治理能力,活动期间和之后。提升资产价值。新版本升级后,我们可以做些什么来更高效地帮助您?看几个小场景就一目了然了。自动化基线运维代替人工监控”有了基线运维功能,数据研发同学不再需要天天盯着屏幕查看核心任务是否运行,也不需要频繁查看是否监控缺失,收到风险提示后,预留充足的处理时间,大大减少工作量”·开箱即用,全面提升数据质量”升级后,开发同学可以不仅监控仓库中表的质量,还监控数据源表中的数据,可以发现数据导入过程中的质量问题,提前防范风险。同时,由于DataphinV3.6版本内置丰富的质量规则模板,支持灵活业务需求的监控规则无需写SQL即可配置,不怕业务小哥上门去问问。”简化补数据配置,数据刷新会更快更稳定。“以前在配置补数据任务时,最怕的就是误选了暂停调度的节点,整个数据补完进程可能会被阻塞。中断。通过一键过滤暂停调度任务的功能,您可以放心补充数据,运行效率直线上升。”·脱敏配置灵活,适应业务需求》运营同学说性别维度可以作为分组条件,只需要在展示的时候脱敏即可;金融同学说工资是绝密数据,一定要脱敏查询时,从根本上杜绝数据泄露;脱敏策略配置,不再惧怕灵活多变的需求。”DataphinV3.6版本升级功能要点1、全链路数据治理能力,贯穿前期-规划、事中监控、事后审计概念建模:根据实际业务场景抽象出业务实体和关系的可视化定义,更好地准确反映业务之间的联系,为逻辑模型构建提供依据。·智能基线监控:支持配置天际线。添加需要保障的关键任务或字段后,系统会根据依赖关系自动圈出需要纳入监控范围的任务。同时支持配置灵活的告警规则和接收方式,减少人工操作。维修费用。·全局数据质量:扩展支持多数据源表质量监控,内置丰富的质量规则模板,支持根据业务场景自定义监控规则,提高配置灵活性和业务监控覆盖率。·数据标准竞价:新增支持批量导入数据标准,提高配置效率;支持基于标准属性和字段元数据的关联映射配置,实现标准与资产的关联,作为后续投标审核的依据。2、拓展多引擎、多类型数据源、多消息渠道,满足企业多样化的数字智能应用需求。ADB引擎适配:新适配采用AnalyticDBforPostgreSQL作为计算引擎,可支持数据集成、离线&实时数据研发、数据质量、资产安全、数据服务等功能,帮助企业构建统一的数据仓库平台。·数据源扩展:新增支持大梦数据源可离线集成,完善对国内数据库的支持;Hive和HDFS数据源增加EMR版本选择,实时集成输出组件增加对Hive的支持,增强Hive数据源适配度。·自定义消息通道:支持自定义消息发送通道,通过配置实现与阿里云电话&短信、企业自有消息通道的对接,接收任务监控、质量监控、数据服务监控等告警信息。3.优化研发体验,加快企业数字化能力建设。编辑器优化:优化错误提示,可快速定位错误代码行并提示错误原因及修复建议;新增设置参数提示,可查看参数的默认值、类型及取值说明,提高数据开发效率。集成组件优化:Orcale组件适配特殊字符处理减少运行错误,hologres组件支持填写SQL准备语句补全,hana组件支持小写表名等,降低集成任务配置成本补充数据优化:支持一键式filtering下游暂停定时任务和所有下游,保证补充数据整体链路的正常执行,降低人工筛选成本·脱敏模式扩展:支持配置底层查询直接脱敏或只显示脱敏,支持简单where/join等子查询场景,对业务使用更友好关键特性介绍特性1:基础研发版支持AnalyticDBPostgreSQL计算引擎应用场景:构建可线性扩展的企业数据仓库服务,加速企业数据分析和运营系统temBuildAnalyticDBPostgreSQL强兼容PG/Greenplum开源生态,兼容Oracle/TD语法生态,具备秒级弹性、数据共享等国内领先的产品能力;支持复杂SQL优化、海量数据关联聚合、资源负载管理,可提供PB级企业数据分析服务。Dataphin基础研发版支持AnalyticDBPostgreSQL作为计算引擎。用户现有的OLTP数据库实例,如RDSMySQL、PostgreSQL,或者传统数据库实例Oracle、SQLServer等,可以通过Dataphin的数据整合和调度能力,同步到AnalyticDBPostgreSQL;结合数据质量监控、安全分类分级、脱敏配置等功能,打通入库、清洗、分析、洞察全链路,帮助企业构建统一数据仓库平台,加速数据分析和运营体系建设对于业务场景。特点二:概念建模应用场景:可视化定义基于实际业务场景抽象出的业务实体和关系,为逻辑模型构建提供依据。主题域层次从1级扩展到5级,企业可以更好地基于主题域构建资产分类体系,实现数据分级管理。新的概念建模能力,在数据仓库规划和数据架构设计阶段,支持可视化配置根据实际业务场景抽象出的业务实体及其关系,并以实体关系流程图的形式直观展示,有利于数据消费者更好地理解数据和数据对应的业务。例如在制造业的“原材料采购”场景中,可以抽象出“客户、订单、原材料产品、地址”等业务对象,以及“供应商询价、采购订单、财务预付款、供应商发货、到货收货、财务余额支付”等业务活动。此外,业务实体之间的关系类型,在原有关联、继承、层次的基础上,增加了前序、流转、包含关系,更准确地反映真实的业务联系。例如,“采购”流程包括“供应商发货”和“到货签收”两个事件,这两个事件是一种转移关系,而“采购”则是“供应商审核”的后续流程。创建概念模型后,可以根据定义的业务实体快速创建对应的逻辑表,实体之间的关系默认继承并自动转化为数据表之间的关联逻辑,以及概念模型之间的映射并实现了逻辑模型。提供业务输入和指导。特性三:基线运维应用场景:保障核心业务数据的输出任务,及时发现异常并预警,降低对业务使用的影响1.添加需要保障的任务或字段后,系统会根据依赖关系自动计算出需要将上游节点纳入监控范围,减少手动配置的成本。配置时,只需要关注需要保证输出时效性的核心业务数据对应的任务或字段,不需要整体关心依赖链路的上游节点。系统会根据任务之间的依赖关系,自动推断计算出监控的需求。的节点。这样即使更新了任务依赖,也不需要更新基线配置,大大降低了人工操作的成本;同时也提高了监控的准确性,避免了由于配置不同步而导致的漏监控。2.可自定义配置整体基线预警和断线预警,以及基线监控范围内单个节点运行错误或减速预警,方便及时发现异常并处理。需要保证的数据的预期输出时间可以配置为基线的“保证时间”;同时,根据任务复杂度和业务重要性,可以预估异常任务运行可能需要的处理时间,配置为基线的“剩余时间”。amount”,承诺时间-保证金为baseline的预警时间。在周期性运行过程中,系统会根据每个节点在baseline链路上最近7年的历史运行情况,计算出保证节点的预期完成时间天,如果预估时间晚于配置的警告和承诺时间,会发送基线警告通知开发者和业务人员,另外也可以为个别任务配置运行缓慢或运行错误报警或基线链接上的字段,以便尽早发现并处理可能出现的异常,保证业务数据的正常输出。3.支持查看每条基线的操作明细,如果存在预警或断线风险线,自动识别定位关键路径上的关键实例,方便开发维护人员直接处理,减少人工l分析定位。特点四:数据标准应用场景:支持标准与资产的映射关联,作为质量审计的参考依据,提升企业资产管理水平。1.优化标准属性配置,支持批量导入数据标准,提高配置效率。支持配置值类型(自定义输入、枚举单选、枚举多选)和属性字段的取值约束。同时,还可以引用码表作为枚举值的来源,增强标准定义的规范性。例如指标的“业务分类”属性需要来自企业的“业务系统”码表,“字段长度”属性的取值范围需要限制在0~128个字符等。支持下载标准定义模板,通过上传Excel文件批量导入数据标准,实现历史标准的批量迁移和存储。支持查看导入执行日志;支持配置导入冲突处理策略;支持一键下载异常记录和异常提示,提高配置效率。2、支持基于标准属性和元数据字段的关联映射配置,实现标准与资产的关联,作为后续投标审核的依据。支持标准属性与资产元数据的关联映射配置,实现标准与资产的关联。可以在资产目录中查看字段和指标的映射结果,方便开发时参考映射到的标准定义,将数据治理放在研发环节的前面。对不符合相关标准的资产,可尽快进行整改,提高公司整体数字化能力建设的规范化、成熟度和资产健康度。3、支持码表、词根的定义和管理。代码表可用于约束标准属性字段的取值范围,提高标准定义的准确性;词根可以作为数据表、字段等研发对象命名的参考,提高研发的规范性。特点五:全球数据质量应用场景:通过对全球数据表和数据源的监控,提前防范数据质量风险,进一步提升资产健康度。1、支持各种数据源的计算引擎和表的质量监控,支持数据源连通性和表结构变化的监控。数据质量模块分为域内版和全局版。其中,域内版本可以监控计算引擎中物理表和字段的质量,以及Dataphin独有的逻辑表、指标、实时元表;还支持在监控范围内创建数据源和表结构变化的连通性被监控。全局版除了支持计算引擎中的物理表,还支持MySQL、Oracle、Hana等10余种数据源的表监控,结合全局版和域内版的功能可以扩展可监控的资产对象类型,前置数据质量风险,降低对后续研发环节的影响。2、基于DAMA系统,内置丰富的质量规则模板,开箱即用;可自定义监控规则,配置规则触发方式,灵活适应多样化的业务需求。Dataphin质量模块基于DAMA(国际数据资产管理协会)体系,内置完整性、唯一性、及时性、一致性、有效性、稳定性6大场景的体系模板和规则,大大降低使用门槛;以独特的方式支持自定义SQLCreate规则模板,灵活适应多样化的业务需求。并且支持配置灵活多样的规则触发条件,如定时触发、代码运行触发、任务调度触发等,满足不同的开发场景。3、自动生成质量监控报告,支持查看和下载异常数据,可作为质量整改的参考。特性六:编辑器优化应用场景:优化报错和参数自动提示,提高开发效率和用户体验。1、错误提示优化:支持快速定位错误代码行和识别错误语句,提示错误原因和修复建议;可自动识别不规范的代码语句,支持一键修复或忽略提醒。2、支持设置参数提示:提示可选参数,支持查看参数的默认值、类型和说明;指定参数后,如果有默认值或枚举值,会自动提示可选值。特点七:实时集成支持增量同步到Hive应用场景:从MySQL或Oracle实时增量提取数据同步到Hive,支持在Hive目标库批量自动建表,可以自动添加系统附加字段到Hive目标表;支持DDL处理,有增表、删表、改表结构等8种场景;提供字段预览功能,查看源表和目标表字段的差异和对??比,减少手工建表操作。支持对目标表的规范性和可用性进行智能检查,对异常结果进行警告、错误等不同级别的提示,抢先发现问题,降低任务操作出错的可能性。此外,新增实时集成任务提交明细,异常及风险提示一目了然,验证过程透明。特性八:优化离线集成组件应用场景:适配多数据源的特殊逻辑和异常处理,提高集成任务配置的流畅性。Input组件,针对PostgreSQL和AnalyticDBforPostgreSQL数据源,支持在使用QuerySQL方法时添加常量字段。Hana组件支持小写的表名。由于AnalyticDBforPostgreSQL只支持在建表时指定分区字段,不支持后续添加。当整个数据库迁移的目标数据源为AnalyticDBforPostgreSQL时,自动添加分区字段以适应需要创建分区的场景处理策略使得离线流水线任务可以在不使用自定义组件的情况下正常运行,降低配置成本。特点九:补充数据支持暂停节点过滤。阻止补充数据任务的执行。对于调度方式为“暂停调度”的任务,生成的补充数据实例默认是暂停的。暂停正在运行的节点将阻止其他下游实例的运行。另外,如果选择了多个补充数据业务日期,并设置为周内连续(即并发租用数为1),也会影响后续业务日期实例的执行。阻止整个补充数据过程。基于这样的背景,Dataphin在配置补充数据任务时,新增支持一键过滤挂起的定时任务和下游节点。另外,在某些场景下,暂停调度的任务需要在补充数据对应的业务日期正常参与调度。例如,在每个月的第一天运行的财务月度结算任务需要在指定的临时结算日运行。针对该场景,新增支持配置选择的挂起任务在选定数据补货业务日的运行方式,可选择空运行、正常运行、挂起运行,灵活适应多样化的业务需求。特色十:脱敏规则支持配置脱敏方式。应用场景:通过配置查询不脱敏,只显示脱敏,支持简单的where/join条件,对业务使用更友好。在数据开发中,经常会用到一些敏感字段,需要配置脱敏规则来保证数据安全。默认情况下,在整个研发环节,配置了脱敏规则的数据会使用脱敏后的结果参与计算,会导致where/join等条件不生效的问题,影响业务使用。基于这样的背景,Dataphin支持为脱敏规则配置不同的脱敏方式:底层脱敏:在查询数据时进行脱敏。在SQL处理过程中,使用脱敏后的结果进行处理,可以更好的保护数据。只脱敏:查询数据时,不脱敏,最终对外展示时才脱敏。.SQL处理过程中,使用原文进行处理,因此可以支持where/join等简单条件,对业务使用更加友好。需要注意的是,如果对敏感字段进行UDF处理(如字符串拦截),会触发脱敏降级,该字段生成的派生字段会被统一降级为*.通过该能力,开发者可以根据不同的使用场景配置不同的脱敏策略,更好地适应业务需求,平衡数据安全性和使用灵活性。特性11:自定义消息通道应用场景:快渡接入阿里云电话/短信和企业自有消息通道,获取告警和消息通知。支持实例级和租户级的自由配置,不同的租户可以开启不同的消息通道。支持快速接入阿里云电话、短信通道,或通过简单的参数配置接入企业免费消息通道。配置完成后,支持发送测试消息,快速验证通道可用性,确保消息可以正常发送。特性十二:跨租户发布配置优化应用场景:导入导出配置优化,支持与外部存储系统对接,发布过程更顺畅1.导出文件配置优化:新增设置“是否导出建表语句”功能";如果设置了导出,可以在待发布对象列表中下载建表文件。新增支持设置“是否运行下载发布文件”新增支持发布文件外部存储设置(本期支持开启OSS存储),可设置“导出完成后是否自动转入外部存储”"",支持设置同名文件的冲突处理策略;如果启用外部存储,可一键转储待发布对象列表,并可查看转储记录2.导入数据源校验优化:根据“数据源名称”进行匹配,如果是同名数据源,则验证数据源类型,如果类型一致,则认为在目标环境中匹配成功。如果没有同名数据源匹配,只会提示风险,不会阻塞发布(可能会导致依赖对应数据源的任务发布失败)总结在本次发布的V3.6版本中、Dataphin进行了全面性、安全性、研发效率、开放性、稳定性、易用性、Deliverability等方面的优化升级。在下一个版本中,我们将不断完善资产建设平台的易用性和可交付性、资产治理平台的完备性、基础账户平台的稳定性和开放性进行迭代,敬请期待!