当前位置: 首页 > 科技观察

如何做好数据中心的批量割接工作

时间:2023-03-14 11:06:03 科技观察

割接是对在用线路和设备的运行,直接影响其承载的业务。割接是数据中心工作的重要组成部分。由于涉及业务变更、软件升级、设备下线下线等操作,现有服务可能会受到影响甚至中断。因此,割接也是数据中心工作中最具挑战性的部分。部分。割接任务能否顺利完成,将对数据中心未来的运营产生重大影响。一般情况下,割接前必须做好周密的规划,以保证割接的顺利进行。我们知道,数据中心80%的故障都是人为失误造成的,而割接必须要有人为操作,失误在所难免。哪个数据中心在割接中没有出现过一些小问题,只要能够及时补救,一般不会有太大的负面影响。这是因为数据中心是一个非常庞大的信息系统。千家万户齐心协力。如果协调不好,可能会影响业务,达不到割接前的预期效果。.尤其是现在各种新技术不断在数据中心落地。虽然数据中心的运行效率得到提升,人力成本降低,但一旦出现问题,即使是最优秀的技术专家也很难排查。掌握了整个数据中心的系统技术,增加了割接的难度,让每一次割接都犹如穿越地狱之门。那么,下面我们就来看看数据中心业务割接需要注意哪些问题,避免失误,提高业务割接的成功率。首先,需要评估割接方案的风险,尤其是是否会对运行业务的系统造成影响。根据评估,确定可能影响业务中断的时间长短,然后提前向数据中心用户发布公告。对于重要的大客户,必须单独沟通。征得大客户同意后,会发布割接公告。本次割接的目的在公告中已经明确说明,比如为了提高客户访问数据中心的速度,业务系统软件升级,设备更换等,让客户一眼就知道割接要做什么。公告还应明确割接操作的起止时间(基本在夜间2:00-5:00之间)、在此期间可能造成的业务中断时长、具体访问会影响哪些业务.割接前,数据中心有义务主动告知,让客户提前做好各种数据备份工作。二是制定详细的割接方案。包括割接总体方案介绍、具体运营技术方案、回退方案、人力部署和分工安排、预期效果、割接过程中的信息收集和数据监控等。因此,在割接之前,需要做大量的准备工作。准备得越充分,割接就越顺利。割接时可能需要几分钟甚至只是一个设备操作命令,但准备工作可能需要几天甚至几个月的准备时间,就像嫦娥奔月项目一样。从嫦娥发射到月球轨道只有两三天的时间,但我们需要花一两年的时间进行设计和准备。前期工作量很大。需要考虑到割接过程中可能出现的异常情况,针对不同情况有相应的解决方案。如果割接前没有想清楚,一旦出现突发情况,就没有应对方案,短时间内很难想出好的解决方案。如果这时候没有足够的处理经验,往往会实施回退计划,割接就会失败。此外,所有割接方案和技术操作必须符合数据中心规章制度和相关标准,不允许违规操作。比如重大节日期间网络关闭,高级别设备操作权限交给低级别工程师,由低级别工程师代替操作。割接工作必须严格按照既定步骤,有序进行。对于特别重要的割接,需要搭建模拟环境并进行演练。如果可能,需要在现有数据中心网络的业务环境中进行割接演练。需要改进的地方。三是做好数据业务备份。很多数据中心的业务是不允许中断的,数据出错或者丢失的情况也不一样。这时候就需要启动冗余备份方案了。例如,割接前业务可以平滑切换到备份系统,割接后业务可以切换回来,保证业务不受影响。停止运营,割接完成后,重启业务运营,继续使用备份数据。不能出现没有后援、业务裸奔的危险情况。近日,中国移动广西在进行扩容割接时,因误操作导致用户数据丢失,影响了数十万用户,手机无法通话十几个小时.这是一个明显的割接准备不足的例子。备份效果不佳的示例。不管怎样,数据是数据中心最宝贵的资产。里面的用户账号信息太多了。一旦丢失或弄错,影响将非常恶劣。这比业务暂时无法访问更严重,就像我们的我正在电脑上写文章,突然电脑断电了。之前写的文章都丢了,因为我没有保存。我不得不自己重写它们,浪费了很多时间。更严重的是,等电话的时候我可以继续写。***,要做好监测总结工作。因为割接几乎都是在半夜进行,在数据中心业务量最大的时候,割接后可能看不到业务状态。需要观察一两天业务的运行情况,直到确认没有问题,才进行割接。部分基本结束。接下来就是对割接工作进行总结。数据中心的割接工作比较频繁,有的数据中心甚至每天晚上都有割接安排。每次割接后,要对割接中出现的问题进行分析,及时改进,并在下次割接时避免。如果割接失败,更重要的是要总结失败的原因,详细分析整个割接过程,调整后续的割接方案,避免重蹈覆辙。除了对发现的问题及时改进外,还需要总结经验,记录割接过程中的所见所闻。这些割接经验可以留存下来,供其他人员在割接时学习和使用,从而改善整个数据中心的运营。维护人员的技能水平。往往在这种割业务的重点工作中,对人的锻炼最多,也是学习真本事的好机会。