当前位置: 首页 > 科技观察

60天,机房起火,四大云巨头挂掉,如何操作和维护以避免停机?

时间:2023-03-12 05:02:58 科技观察

前天上午,腾讯云计算服务在广东宕机,导致部分用户无法访问资源,控制台登录异常,很多网站无法访问。故障持续了3个小时。目前,该故障造成的损失以及用户赔偿问题尚无定论。据悉,事故是由于运营商的光缆中断造成的。截至昨日11时40分,腾讯云表示故障已恢复。然而,这不是一个孤立的案例。一个多月以来,惊心动魄的事故接连发生:6月初,北京亦庄某数据中心机房柴油机起火;6月28日,阿里云官网控制台和部分产品功能出现问题;77月17日,AWS管理控制台间歇性故障;7月18日,谷歌云平台全球负载均衡服务中断;……以阿里云的失败为例,其后续声明直接指出,这也是其运维人员的一次失误。结果,阿里云的很多产品大约一个小时都无法使用。有网友直言:中国互联网半满,恐怖整整一个小时!看来,高温模式下,数据中心和云计算领域也在经受***运维考验。智能自动化运维并不意味着无人参与,依靠人工智能运维非同小可,尤其是对于基础设施起着重要作用的数据中心,运维工作不能懈怠根本。在过去的十年里,数据中心从只有UPS、空调和IT设备的普通机房时代进入了一个包含各种新技术和应用的新时代。这样一来,规模大下,风险集中,数据中心的运维管理面临更大的挑战,运维难度也“更上一层楼”,尤其是面对随着数据中心的不断扩容和升级,基础设施的安全稳定运行变得越来越重要。在数据中心领域,我们讲究的是“三分技术,七分管理”。因此,如何减少人参与数据中心的机会,科学地控制人的行为是当前运维工作的重中之重,而近年来建成投产的新一代数据中心往往对此有发言权。其中,8月底投入运营的中国电信开普勒(佛山)数据中心,积极探索智能自动化运维之路。如今,大数据、物联网、自动化、机器学习等创新技术改变了数据中心传统的运维管理模式。新一代数据中心的运维离不开信息系统的支撑。建立高度智能化的信息系统是提高运维效率、实现运维智能自动化的关键。其中,运维监控平台是运维管理系统实现的基础和前提。为了保障数据中心的安全,运营商需要对数据中心内的温度、湿度、功率、水流量、风量等进行全面、实时的监控,以发现潜在问题。在开普勒数据中心,监控中心进行红外温度监控、电能质量监控、超声波水流监控、风量监控等资源监控,并增加对关键设备的监控。告警信息直接显示在监控中心,确保关键设备告警信息能第一时间被运维人员获取,做好准备,减少排故时间,提高工作效率;同时,为了防患于未然,科学地利用这些数据也可以为应急措施和节能措施提供可靠的指导。监控中心依托人工智能技术,采用编码、名称、数据类型、单位精度、更新频率、存储要求等统一数据源标准,数据中心各类资源设备运行状态一目了然一目了然,不仅提高运维。工作效率高,很大程度上避免了机房局部热点、机房冷暖不均、局部热点等不良现象。仅有监控平台还远远不够。要实现更精细化的管理,智能管理平台必不可少。因此,PC端配合手机APP的智能化管理方式应运而生。据悉,开普勒数据中心在业内率先采用全自动二维码巡检系统,可自定义巡检路线,自动生成巡检任务。手机APP自动接收巡检任务,一键生成巡检。报表自动评估巡检健康度,实现流程自动化和智能巡检,同时提高数据中心的安全性,提高整体运行效率。需要指出的是,数据中心的智能化自动化运维并不是说运维不需要人,而是大约30%-40%的运维是标准化工作,不需要人工干预,只要设置参数和步骤,即可解决问题,实现自动化。然而,数据中心全面采用人工智能还有很长的路要走——数据中心设备制造商施耐德电气的专家指出。此外,还有60%-70%的工作仍然需要人工干预,因为这部分工作涉及非标准化运维。此时,考验运维团队的专业性——在严格执行7*24小时运维值班制的运营体系下,每月对设施设备进行维护保养,每季度进行一次维护保养。设备厂商维护,开普勒数据中心提供完善、高效、可靠的数据运行和网络服务。据悉,开普勒数据中心将于8月底投入运营首批774个机柜,每个机柜位于2-3层模块房,平均20A机柜,4-7层可为客户提供定制。运维管理、技术、服务实力相辅相成,诚然,两者缺一不可,难免有疏漏之处。数据中心资源集中化趋势明显。一旦发生故障或漏洞被利用,可能会导致数据中心大规模数据丢失甚至设备停机。即使是几分钟的宕机都会对企业造成灾难性的影响,灾难恢复和应急预案对于企业的稳定运营至关重要。以开普勒数据中心为例,真正实现了高可靠性,真正的双路市电供电,配备了2N模式供电的UPS系统,柴油发电机也足以提供不低于8小时以上,制冷系统冷冻水/冷却水也采用高可靠性双回路管路。凭借这样的技术实力,严格遵守每年两次消防演练、每年两次柴油发电机带载运行、每年一次机房应急演练等规章制度,让客户安心享受数据托管服务的想法。智能自动化运维的重要性不言而喻,高效智能的信息化运维管理系统也将发挥越来越重要的作用。然而,信息化运维管理系统并不是孤立的。只有结合科学的设计理念、合理的结构布局、强大的技术服务能力,才能实现智能、高效、安全的运维目标。开普勒数据中心就是这样一个软硬实力兼备的新一代数据中心的典范。依托合作伙伴中国电信的云网融合战略,直连163个骨干国际网点,依托股东佛山电建集团安全可靠的电力资源,佛山开普勒数据中心践行“绿色”、“节能”、“环保”的理念,采用高效通风降噪的独立油机楼,利用流体动力学原理辅助机房负荷布局设计,预留未来阜能公园接口冷热电三供接入,空调冷凝水回收利用,建设标准为中国电信五星级,T3+机房。面向全省、港澳台地区乃至全国及东南亚地区,为公众、政府、企业提供全方位的数据服务。运维市场价值凸显,数据中心借势弯道反超。事实上,运维往往是数据中心最重要的工作,但往往被人们忽视,主要是因为运维工作短期内看不到效果。当出现故障时,运维会被点名背黑锅。随着大数据技术的发展,特别是新型服务器的不断涌现,对基础设施层的要求越来越高。数据中心安全、稳定、可靠、绿色运行等基本要求长期以来难以满足用户需求。运营商也应顺势而为,积极拓展业务范围,创新运维管理模式。据《2018年中国企业IT运维管理市场报告》预测,到2020年中国数据中心运维服务市场规模预计将达到2744.7亿元,年复合增长率为16.4%。毋庸置疑,智能化将是中国数据中心运维管理的必然趋势,运维管理也将从被动应对转变为主动防御,实现从IT成本中心向IT服务中心和IT价值中心的转变。软硬实力兼备的数据中心将是最好的,快速抢占市场。