如果用一句话来形容运维团队的工作状态,大概就是“机房内机房外,一群男性精灵们。他们熬夜清醒,他们加班到天亮。“每一个稳定的系统,都是因为有这样一群运维团队在幕后工作,日以继夜,常年处理上千条系统告警.但是什么?就算你再努力,也难免会遇到那么一两次系统延迟遭受全世界的疯狂轰炸,“为什么系统登陆不上?”“为什么访问速度这么慢?”“为什么页面加载不出来?”……但是,还是弱弱的对用户爸爸们说:系统宕机就像人感冒一样难以完全避免,这是世纪难题。毕竟这两位马爸爸都没有解决。但是,良好的操作和维护可以像熟练的医生一样立即恢复。好在我们的周浦(99.95%)没有拖累我们,和BAT处于同一水平。让客户用上更好更稳定的系统是我们不变的追求。为此,我们也进行了不懈的努力,取得了一定的成绩。除了过去六个月我们99.95%的在线服务率,我们的千人每周问题数量下降了4-5倍;(每1k人使用一周可能遇到的缺陷数)最快在线问题响应时间可达5分钟;问题处理时间也得到了极大的提升,95%的问题可以在24小时内解决小时内解决……而这一切都离不开我们整个研发团队的全力支持和运维保障体系What是运维保障体系运维保障体系是为了提高软件性能的开发效率和稳定性,降低软件的运行成本。换句话说,只帮忙,不惹事。舟浦数据技术总监王洪祥指出:“其实基于这个目的,舟浦运维团队要做两件事。在研发层面,运维团队应该提供最优质的工具用于研发,提高产品迭代效率,满足用户需求,能够及时满足;在系统保障层面,为了保证用户的顺利使用,一方面,运维必须一方面协助客户处理运营问题;另一方面,运维需要对系统进行持续的监控和优化,以保证整个系统的持续稳定。”提升研发效率,让用户快速获得最好的产品为保证产品/功能以最快的速度、最好的质量交付给用户,运维必须为研发提供最高效的工具。除了使用Gitlab+Jenkin+Nexus自建仓自动化等工具搭建自动化集成平台外,运维还提供CI/CD自动化工具,通过自动化验证,促进软件的持续集成和交付速度项目,使开发团队能够保持软件的更新并快速投入实践,大大提高了产品的迭代效率。也正是基于此,舟浦的整个技术方案得以快速完成,产品保持每2周迭代一次的频率,每年满足近千个客户需求。通过不断的更新和优化,产品功能更加完善,系统更加稳定易用。02提高监控密度和问题响应速度,保障用户顺畅使用为保障用户顺畅使用,周浦运维团队还提供全天候在线技术支持。比如在帮助客户处理数据误删方面,我们实现了数据秒级回滚,数据可以及时恢复到秒级,无缝;在处理销售订单删除问题时,我们不仅可以准确还原单据,还可以跟踪具体操作时间,帮助客户寻找管理漏洞。针对用户更关心的数据安全问题,我们采用最先进的网络安全协议,保密传输和备份,并为每个客户分配单独的数据库进行隔离,充分保护用户的数据安全。“运维不是系统能跑起来,用户用起来就万事大吉。运维的最终目的是第一时间发现问题,能够第一时间预警,并能够在第一时间自动解决它们。”为此,舟浦推出了云监控+自建监控的多级告警方式,可以更细致地监控各种资源的可用性和性能,实时感知业务的任何变化,真正做到时间决策,让用户更早一步发现故障或性能瓶颈。不仅如此,我们还使用了备份服务器。当集群或区域发生故障时,能够快速响应,第一时间切换到其他区域正常提供服务。同时,我们实施集群部署策略,自动消除单点故障。服务保证。除了自动解决问题,为了及时响应0.05%的可能故障,我们的7x24小时oncall调度策略依然有效。最快5分钟响应,恢复快。95%的问题保证24小时内解决。长期以来,周浦一直走在高速迭代的快车道上。从2016年推出第一款产品周浦云管家,到现在周浦已经形成了一套完整的技术解决方案。在此期间,我们不断收集新需求,应用新技术,以每月2-3次的高速迭代频率逐步丰富和完善产品。在一段时间内,相对于低频迭代,高速迭代会增加系统的不稳定性,因为相对不动的东西最稳定;这是正确的姿势,所以周浦一如既往地坚持走在快车道上。而我们的运维保障体系也在不断迭代,追求更便携、更高效的方式来保障用户更顺畅的使用。最低。我们仍在努力为客户提供更好的产品和服务。【本文为栏目机构“周朴数据”微信公众号“周朴数据(id:zhoupudata)”原创文章】点此查看本作者更多好文
