任务是什么?并稳定运行。那么“任务运维”就是保障任务的安全稳定运行。那么“任务运维中心”就是辅助任务运维人员进行离线任务管理和实例运维,帮助运维人员提高运维效率,及时发现问题并提供诊断建议给确保任务安全稳定运行。2、任务运维中心可以做什么?2.1运维人员什么时候需要报警?当任务出错时,任务运行缓慢,当任务应该运行时却没有运行……但是运维人员不能整天盯着任务看,所以任务运维中心提供了一个“警报”功能。及时,将告警信息及时发送给运维人员,并呼叫他们处理异常。2.1.1与值班组告警功能相关的第一个问题是告警发给谁?任务运维中心支持职责组设置。创建值班组后,可以添加值班人员,设置值班规则,指定主值班人员和备用值班人员,以及连续值班天数和值班小时数。2.1.2基线运维与告警功能相关的第二个问题是什么时候发送告警?当任务失败时,任务运行缓慢。任务应运行但未运行的时间。针对第二个问题,我们提出“基线运维”模块。首先介绍一下什么是基线,以及与之密切相关的“关键路径”。”又是什么。Baseline:时间线。在基线运维场景下,通过设置若干条时间线(baselines),并将在线任务与这些时间线相关联,当这些任务的实例或者上游实例运行失败,或者这些时间线时实例的预期输出时间超过对应的时间线,系统会触发报警通知值班人员预警时间:如果系统计算出基线上最新输出实例的完成时间超过了预警时间,会触发基线告警断线时间:表示基线任务中的所有实例必须在此时间之前运行成功,该时间为基线挂载任务的实例输出时间的committed时间。建议将告警时间设置为比断线时间早半小时,相当于给运维人员留一个处理时间,断线ng时间相当于底线。关键路径:关于关键路径,可以用下图来说明。本例中基线是根据数仓层设置的,任务A-E是挂载在2点基线上的任务。所以我们可以看出baseline的作用其实就是对任务进行批量监督。如果你在一个基线上挂了一批任务,基线会不断地计算这些任务在基线上的预计完成时间。一旦计算出预计完成时间超过预期时间,就会向值班人员发出基线警报。值班人员收到报警信息后,要查看哪些任务被延误了。这时候就需要查关键路径,向上溯源,最终准确找到问题的根源。任务运维中心支持基线运维。通过权限授权,运维人员可以在运维配置中创建和管理基线。将相关任务关联到基线后,可以在基线运维模块中查看任务的执行时间。例如,下图显示了挂载在“数据仓库3点基线”上的任务相关实例的运行状态。不同的颜色代表不同的实例状态,运维人员可以直观高效的查看任务的执行状态,并对异常实例进行相关操作。2.2定位问题既然我们已经收到告警,知道是哪个任务出了问题,那么我们就需要想办法找出这个任务出了什么问题,是因为代码错误,资源不足,还是DQC异常,或者平台的bug呢?2.2.1智能诊断为帮助运维人员快速定位问题,我们推出了“智能诊断”功能。如果想快速体验该功能,可以进入周期实例列表,选择一个状态为失败的实例,会看到一个放大镜图标,点击进入智能诊断页面。智能诊断详情页显示异常节点和异常处理建议。例如下图是数据同步节点故障的诊断结果和处理建议。2.3解决方案2.3.1重跑当我们发现任务有问题,定位失败原因后,修改代码并重新发布到网上后,需要重跑原先运行失败的问题。如果实例状态为失败或终止,支持实例重跑/批量重跑。重新运行的操作步骤包括:选择需要重新运行的节点,系统支持自动选择失败、终止和撤销的节点;设置重跑,包括通知设置、运行设置等。运行完成后,周期实例列表会更新实例ID,支持查看重跑记录。2.3.2补充数据补充数据的场景主要有:创建任务时,想要处理历史数据,可以使用数据补充功能,选择历史上的某个时间段执行任务;异常,可以通过补充数据重新生成并执行历史异常数据或任务的实例,从而达到修复历史数据的目的。补充数据的步骤包括:在源任务中选择需要补充数据的节点,在下游任务中选择需要补充数据的节点,进行数据补充操作设置。这里以gl_ods_user_info任务为例。这个任务第一次执行的时间是2022年7月的某天,我想在2022年6月补充这个任务及其下游任务的数据,可以使用数据补充功能。Step1:选择源任务需要添加数据的节点Step2:选择下游任务需要添加数据的节点数据设置,我可以设置补充数据的时间范围,计划执行时间,执行队列等参数.第四步:进入补充数据任务运维列表,查看补充数据实例的执行情况。从角度看产品的闭环图。任务运维中心的本质是为用户打造一个从发现问题、定位问题到解决问题的完整、高效的运维环节。尤其是在企业用户数据呈爆炸式增长的今天,数据任务往往具有任务量巨大、调度类型复杂、业务影响面广等特点。任务运维人员往往承受着巨大的压力。一个智能高效的运维平台,可以帮助运维人员提升绩效。工作效率,最大限度减少故障处理不及时造成的损失,保证数据任务的健康运行。通过提供强大的基线运维、灵活的告警规则配置、自动化的任务管理和监控等功能,致力于打造便于运维人员使用、运维高效敏捷的智能运维工具工作。
