基于字节击败分布式治理的概念,数据平台数据治理团队开发了SLA担保平台。目前,它已在字节内广泛使用,并支持大多数数据团队的SLA治理需求。日常保证SLA链的道路数量超过一千,可以解决数据SLA的难度对齐,保证和困难管理的问题。
SLA(服务级协议):服务级别协议,这是为Internet Companies提供网站服务的保证。DATASLA,即数据可用性保证,通常将数据输出时间用作SLA。
在大量数据任务开发方案中,由于业务多样化,数据量和复杂的数据任务,数据任务链接取决于复杂,长链接和许多交叉团节点。因此,在实际开发,操作和维护过程的过程中,以确保按时确保自己的数据输出,负责任务的人将遇到以下困难:
为了解决上述问题,BYTE击败数据平台通过自我开发的SLA担保平台进行调节并促进各种业务团队,以有效保证数据的SLA,并且数据SLA标准率达到99.1%。
理想集合的理想集合与相应SLA之间的关系之间的关系如下图所示,即每个任务及其上游任务在相应的SLA之前完成,这也是平台的治理目标。
除了解决上述困难外,SLA保证平台还为不同用户提供以下使用方案:
根据上面不同角色的要求,SLA保证平台提出了自己的解决方案。在满足团队数据治理需求的情况下,该平台提供了完整的治理板容量;由于复杂的任务链接,很难实现SLA。该平台简化了SLA,通过各种优化;系统,及时广播SLA状态。
那么,SLA保证平台的核心模块是什么?该平台如何工作?
目前,SLA保证平台有三种类型的核心字符,它们是:
也就是说,输出数据的任务可以通过数据任务的元信息构建整个数据生产链接的完整DAG。在此平台中,所涉及的任务元信息通常需要包括以下内容:
申请人提到的声明内容称为“声明列表”。声明表的核心内容如下:
申请应用程序任务的任务,即申请人想要保证的任务,也称为起点任务。预计SLA申请人将申请任务的输出将直接签署治理团队的数据治理党。治理团队管理员的前提是批准和治理SLA保护,首先达到SLA协议。在SLA保证平台中,以签名申请表的形式达到了SLA协议。该平台的核心功能是优化SLA所达到的过程。首先,使用“系统卡计算”签名的任务数量用于通过“ SLA建议计算”自动签署某些任务。最后,斯拉斯进一步降低了签名成本。
在签署和签署会议期间,所有链接中的更改都将通过通知模块实时降低信息通信成本并加速SLA的实现来将信息传递给相应的负责人。
上图显示了应用程序签署的一般过程。在实际操作中,例如任务链接的更改和SLA时间以查看确认,申请签名过程将得到良好的调整。
首先,申请人需要填写声明表。提交申请人后,系统将根据声明表中的声明任务绘制上游的所有任务,以形成完整的DAG并进行任务链接分析。链接分析的结果是以下前提 -提高算法,它也是管理员批准的重要参考因素,该因素允许用户快速理解其任务在链接中的任务和上游操作中的位置。
理想情况下,为了确保声明任务的平稳进度,所有需要签署的上游任务都需要签署SLA才能完成签名。诸如复杂链接,高跨交流成本以及难以实现的更上游任务以及难以确定SLA已成为整体SLA的最大障碍。通过“卡点计算”和“ SLA推荐计算”可能会越过这一障碍。
该系统采用特定的“卡点策略”,并计算需要在此DAG中签名的任务。此类任务称为“卡点任务”。此过程称为“卡点计算”。在计算卡点任务后,在签名过程中可以忽略其他任务,从而大大降低了签名成本。
一个声明表格将关联多个任务(即声明任务和上游的卡点任务)。同一任务还将关联多个声明表格,因为在一个DAG中,声明任务可以从任何节点开始,因此n:n之间的关系。
当两个声明表格具有某些任务列表时,例如Task4合并两个声明表格时,该任务的报告方和治理团队是对两种声明表的重制,而该级别在所有声明中的表格中最高。
使用任务的历史操作信息及其上游和下游任务,并与推荐算法相结合,获得了推荐的SLA。此过程称为SLA建议计算。
在负责人签署SLA之前,SLA推荐算法将智能计算为每个任务推荐的SLA,并使用它进一步签署通过该算法签署的某些任务,以进一步降低签名成本。统计数据,此功能可以自动签署SLA的近40%,这是核心功能之一。
对于要签署的其余任务,将为任务负责人推荐的SLA向任务负责人提供。任务负责人可以直接选择直接与此SLA签署,或者您可以自身决定SLA。,巧妙的推荐SLA可以满足大多数需求。通过建议SLA,负责任务的人做出了更快的签名决定,这再次降低了签署成本。
当签署声明表格时,该平台将保证在声明表格中保证任务。担保服务的核心是通过监视SLA的状态更改,并为该消息提供及时报告消息通知负责降低运营和维护成本的相应人员。对于脱机任务,其SLA的评估主要基于其完成时间及其承诺的SLA。SLA的状态分为四种类型,是:
SLA的真实时间状态是数据业务团所需的重要信息。因此,该平台将监视所有任务的所有SLA,并在SLA状态更改时实时向相关人员发送通知。相关人员根据收到的通知知道SLA的具体情况,并且可以采取措施。
团圆管理是该平台提供的响应治理服务的实施,它是数据治理方的重点。重复的管理分为问题管理和事故管理。问题管理重点是“为什么” - 即组织和分析SLA线路的原因,事故管理重点是“如何做” - 即在SLA中断后如何控制。
问题管理模块的总体目标是满足数据治理团队SLA问题的注册和管理,并支持由于数据分析注册注册问题数据后对不同维度的分析,并协助用户管理问题的根本原因以及加剧治理的经验。
当平台执行系统保证监视时,将在SLA延迟时通知它,并继续提醒负责人注册问题。在问题注册的时间后,该平台提供了一组树辅助注册的根本原因澄清根本原因类别,这是统计分析方便的。。
该平台确保SLA延迟记录与问题之间的相应关系,并将SLA详细介绍有关问题查看委员会的信息,包括任务链接,负责人,任务开始时间,等等。
问题注册通常是一个从更多到更少的过程。在早期出现的问题被一个人解决之后,它将在后来的治理中发挥良好的参考警告作用。它的数据值如下:
根据平台操作的记录,常见问题包括资源队列阻止,上游任务故障,数据倾斜等。数据团队两个月问题的注册摘要如下。
2019-07/0877122019-09/1058102019-11/123372020-01/02223520202020-03/0417420-05/069220202020-07/0892事故管理用于记录SLA销售事故的相互作用和改善管理事故。每个事故至少对应于相应的通讯SLA问题记录,每个SLA问题不一定会导致事故。
事故可以在任何节点上执行。通常,在SLA破坏线路并造成实际业务影响之后,需要进行事故注册。事故注册也将与相关的SLA信息有关。事故的处理过程如下:
如图所示,事故主要包括SLA事故细节,SLA事故的原因,改进计划和SLA消费。您可以注意以下几点:
SLA事故管理平台的数据是数据治理治理结果的重要基础,它也是整个SLA保证平台效果的体现。它的数据值如下:
以下是团队的两个月事故统计数据:
2019-07/0846- -2019-09/1026-43%2019-11/1218-31%2020-01/0213-28%2020-03/047-46%2020-05/066666-14%2020-07/085-16%可以通过上述数据可见,该平台有效地保证了核心任务的稳定输出,有助于发生稳定事故的概率,并且现在维持此类事故中的事故数量很长时间。
总体平台主要分为三个主要区块:基本组件,计划治理服务和响应治理服务。系统组件架构图如下:
SO被称为“计划治理”,即在问题发现之前,是问题的治理,并通过主动计划确保SLA形式的输出。计划治理是发现与SLA相关问题的过程。
计划治理服务“通过签署申请表的签署来为SLA协议提供服务”,包括该过程中声明表的生命周期管理操作,申请任务的链接分析以及系统保证监控,服务SLA到达杀害“申请签名过程”后。
响应治理是指通过管理管理模块进行注册,管理和重新检查与SLA相关的事故/问题的过程。发现与SLA相关的问题后,需要解决该问题以形成一个完整的封闭环路。发现问题后的治理变成了响应治理。
响应治理服务模块摘要问题注册和事故管理的两个模块,这更灵活地服务于数据SLA问题的归因和事故统计。
基本组件提供基本功能模块服务,例如配置,广播,看板板,并为计划和响应治理服务提供必要的支持。这是整体SLA担保服务中必不可少的部分。
6.3.1系统配置治理团队是SLA的管理团队。每个声明都需要一个治理团队。治理团队主要负责批准申请表。
数据团队是数据的归属。数据团队对应于业务团队。数据团队的设计保证了每个业务团队独立治理的需求。通过数据团队的灵活配置,该平台可以解决不明确的权力和职责的问题,这些问题将数据和所有权分配给任务的所有权更加罚款 -粒度。
订阅管理是配置订阅信息的平台。该平台的订阅是用于SLA监视的通知广播。通过订阅管理,通知可以动员到个人或组。SubscriptionManagement是SLA监控和担保服务的必不可少的一部分。
6.3.2通知广播通知广播是该平台提供的基本通知能力,它是降低沟通成本,实现保证服务并改善用户体验的重要手段。在重要的节点更改,用户操作,SLA状态的情况下更改等,通知将被广播。通知的形式是多种多样的。根据不同的情况,有普通的短信,紧急消息,卡通知,电子邮件通知,电话通知等。
6.3.3 SLA广播的展示板SLA市场是数据治理党中最关注的部分。展览委员会提供了丰富的信息,例如当天SLA的总体统计信息,SLA延迟趋势分析信息,SLA级别分配详细信息,任务健康详细信息,SLA团队达到信息统计信息和其他丰富的信息是重要的许多团队数据治理指标的参考来源。
将来,字节击败数据治理团队将继续增色SLA担保平台,不断提高卡点策略优化的技术能力,SLA建议算法优化和基于SLA的任务管理机制:
同时,文章中解释的一些功能已通过火山引擎数据制品向企业客户开放。欢迎来了3
原始:https://juejin.cn/post/709715640113164325