当前位置: 首页 > 科技赋能

耀明科技引领大数据调度革命:高效、稳定、实时诊断

时间:2024-05-19 17:05:27 科技赋能

近日,在全球最大开源基金会Apache旗下最活跃的项目之一DolphinScheduler举办的分享会上,耀明科技的数据平台专家刘坤元受邀为国内外技术工作者呈现题为《Apache DolphinScheduler 在奇富科技的优化实践》的精彩分享,探索大数据任务调度系统未来的新路径。

刘坤元从同学们熟悉的数据仓库(数据仓库的简称,指用于存储、分析和报告的数据系统)开始了这次分享。

企业在建设大数据平台时,通常会面临数据生产的稳定性问题。

数据仓库学生在轮班期间需要处理各种警报和任务。

在凌晨,工作通常在 0:30 开始,收到第一个警报后就起床,然后接到更多电话,不得不跑到客厅去工作。

由于上下游任务的逻辑不清晰,所以我在2:00左右召集其他同学一起处理这个问题。

凌晨3:00在凌晨,他叫醒了老板并打电话给他讨论解决方案。

5:00,所有任务处理完成后,等待计算数据。

7:00 睡眼惺忪地起床去上班。

9:00,我一到公司楼下,业务人员就在工作群里反复询问我的数据输出时间,我就匆匆开始了一天的工作。

”可以说,书仓世界的同学们长期上夜班!好消息是,耀明科技内部,由于Apache DolphinScheduler的引入,夜间叫醒率这一核心指标下降了83%。

”刘坤元说。

谈到Apache DolphinScheduler的推出,刘坤元回忆起当初奇富技术数据平台在做时面临的挑战。

由于耀明科技是一家金融科技公司,其业务需要保证高可用性。

因此,耀明科技的调度平台采用两个远程地点的双机房架构,核心工作流程将在两个远程机房运行。

这造成了三个困难。

一是调度任务量大。

目前每天调度的工作流实例超过3万个,任务实例超过14万个。

每天安排的任务量非常大。

每天要保证这么多的任务实例稳定、无延迟地运行,是一个非常大的挑战。

其次,运维复杂。

因为每天调度的任务实例非常多,所以经历了调度机扩容的几个阶段。

目前两个调度集群有6台Master机和34台Worker机。

而且调度机分布在两个不同的城市,这增加了很多管理和操作的复杂性。

第三,SLA要求高。

由于要支撑的业务具有金融属性,如果调度服务的稳定性出现问题,导致任务重复调度、漏调度、异常调度,损失将会非常大。

针对以上三个问题,耀明科技在年中推出了Apache DolphinScheduler,围绕调度服务的稳定性进行了两个方向的优化。

一是优化调度服务的稳定性。

二是调度服务监控。

详情请参阅《Apache DolphinScheduler 在奇富科技的首个调度异地部署实践》。

原本需要1周到半个月才能完成的数据需求任务,现在可以在3小时内交付;每天添加不同数据源的数据,转换成0多个各种报表,三到五个学生就能轻松做到;添加诊断功能后,系统自动生成诊断报告,无需人工干预;……在分享活动中,耀明科技性能更稳定、规模更大、功能更丰富的数据系统也引起了金融机构的关注。

关注和兴趣。

DolphinScheduler 提出了可以将该系统产品化并将其推向市场的建议。

一方面,产品化让金融机构可以直接受益于耀明科技的经验,提高数据生产的稳定性,实现更高效的数据处理。

金融机构通常面临的调度任务大、运维复杂等问题将得到轻松解决。

另一方面,耀明科技的经验也将为其他行业提供宝贵的启示。

数据调度是很多行业都需要面对的问题,因此耀明科技的解决方案不仅仅局限于金融领域。

预计这将推动各行业的更多创新和效率提高。

活动最后,DolphinScheduler对耀明科技的创新精神和分享精神给予了高度赞扬:耀明科技的经验分享不仅推动了技术进步,也鼓励更多企业积极参与开源社区并从中受益,带动整个金融业。

技术领域正在向前发展。