当前位置: 首页 > 科技观察

数据中心基础设施高可用提升研究与实践

时间:2023-03-22 01:58:13 科技观察

随着国家对金融安全的日益重视,数据中心基础设施作为业务安全的关键节点,其高可用能力成为实现金融安全的核心关键因素。银行业务连续性的目标。本文以数据中心基础设施的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构和运营能力两个方面进行案例分析,总结并提出层次化的高可用提升方案方法,并重点对高可用技术和运维能力改造实践进行了分析和讲解。近年来,随着国家对金融安全的日益重视和银行业数字化转型的不断深入,金融科技领域的业务连续性水平成为衡量银行服务品牌和行业竞争力的重要指标。名声。同时,数据中心基础设施的高可用作为保障生产业务安全稳定的重要支柱,不仅是商业银行满足监管要求的必要条件之一,而且发挥着极其重要的作用在维护社会稳定和控制金融风险方面。实际意义。1、商业银行数据中心的可用性分析在信息技术领域,可用性主要是指基于各种计算机设备的连接组合,使得所构建的企业信息系统能够稳定支持业务的持续运行,并且不会影响系统级生命周期中的业务。处理失败。对于商业银行而言,数据中心基础设施本身就是一套极其复杂的技术系统。它综合部署了包括设备、网络、服务器等在内的各种资源,其可用性主要取决于各种基础设施的系统可用性。同时受到设备产品、架构设计、运营能力等多种因素的影响。在量化评价方面,系统可用性的指标评价通常遵循业界常用的衡量方法,即从99%到99.999%的量化指标体系,俗称“几个9”。数据中心可用性示例如表1所示。表1数据中心可用性示例当前,随着商业银行数字化转型的不断深入,各种新技术、新架构不断迭代更新,对高转换过程中系统的可用性。对此,商业银行在进行高可用设计时,不仅要对产品、技术和架构进行可用性评估,加强对新技术、新架构的风险控制,还需要引入高效的自动化工具,提供自主可控的运营能力。服务。特别是加强生产故障发生时的应急响应能力,减少和消除生产故障的意外中断时间。尤其是在操作能力方面,首先要打造一支思想统一、技能齐全的技术队伍,既要遵守安全第一的工作要求,具有严谨、审慎的合规意识,又要掌握专业技术和有创新意识。可以使用DevOps和SRE方法创建适合自己使用的专用工具。此外,运维能力的建设离不开配套自动化工具的支持,更好地满足云化后数据中心的大规模运维需求和高可用需求。2、数据中心基础设施高可用提升方法及案例描述提出系统级高可用提升方法,并围绕高可用技术和运营能力改造实践进行分析说明。1.基础设施可用性提升作为数据中心基础设施的核心组成部分之一,网络系统大致可分为四个层次:设备级可用性指标、功能级可用性指标、区域级可用性指标、园区级可用性指标,自下而上构成了数据中心的高可用能力之一(如图1所示)。其中,网络架构的高可用设计以增加网元、线路、节点、区域的结构冗余度为核心思想,旨在让每一层都能充分应用技术路线的可扩展性,然后基于对每一层的高可用能力进行建设,最终顺利到达并具备业务可用性层能力。现阶段业务连续性指标可达到99.999%的可用率,作为核心能力之一,支撑为用户提供高价值的数字化产品和服务。图1数据中心系统可用性分类设备级可用性关注单个网络设备的产品级可用性和支撑网络单元(NU)的可用性。单设备可用性是指网元级别的可用性指标。初期网元按照99.99%可用性指标要求部署,实现产品技术和部件冗余的技术要求。同时,该级别的可用性还需要关注设备的运行时间因素。设备可用性指标超过5年会逐年下降,需要及时更新和更换相应节点的设备。例如核心链路交换机、路由器等,基于自身的双电源、多端口、双引擎等硬件技术冗余,支持设备持续运行,保持年可用率99.999%以上。功能级可用性关注的是一个网络区域内具有相同功能的多个网络单元对外提供服务的可用性。功能节点的可用性是核心节点级别的可用性指标。根据网络技术发展的支持,扩大核心功能节点的网元设备群可支持的冗余数量。例如,现有的功能节点在技术上支持2台以上设备的部署,包括交换核心、互联网接入、数据中心互联等环境。例如,基于技术产品的发展成熟度,生产网络中的区域核心交换机可按双机双活建设,交换核心、路由器等设备可按2-4个数量建设,并且上网通道功能节点可以按照单个园区6台设备,通过架构设计将上述措施冗余化,旨在赋予设备故障情况下网络功能节点的高可用性.区域可用性侧重于以特定方式互连的多个网络设备提供的网络连接服务的区域可用性。网络区域可用性是单个网络区域的可用性指标。网络区域主要由相互连接的不同网络单元的功能节点组成。一般指提供服务器访问、访问控制、路由转发、负载均衡、存储连接等网络服务。网络系统。从冗余设计的角度来看,“鸡蛋不要放在一个篮子里”,因此需要控制网络区域的部署规模。例如,数据中心可以按照多个网络区域的冗余度进行设计,应用可以分布到多个区域运行,避免因单个网络区域出现异常而影响全局。例如,当数据中心的规模不断增长时,提供计算资源访问服务的网络区域的建设可以基于冗余架构的设计考虑,可以建设两个以上逻辑隔离的区域来支持应用和计算单元化部署资源分布式部署,云资源域规模限制在1000个左右,并建设两个以上具有相同基本服务功能的资源域。园区级可用性侧重于数据中心内不同网络区域的组合,以支持服务正常运行所需的大规模计算资源的可用性。园区可用性是指数据中心内单个园区网络的可用性指标。在这个层面上,网络的可用性取决于网络架构设计的耦合度和区域间发生异常后的隔离能力。在校园级网络中,如果下一级异常事件耦合到多个网络区域,无法及时隔离影响,导致校园级网络可用性问题。例如,网络架构可以在多个园区之间复制搭建,以支持数据中心多个园区的相同网络服务支持能力,按照松耦合结构设计,保持多个园区之间的互联互通,实现园区高-异常情况下高层网络的可用性切换。2.运营能力提升路径运营能力提升涉及ITIL流程的变更、突发事件等各个方面。其中,变更实施和应急实施的自动化工具是维持可用性的核心关键,而不同生产运维能力上限对应的可用率指标大致可以分为三个层次:人工层次、自动化层次和智能水平。手动级别是指通过预先设定的操作命令,手动实施部署。这个级别的可用率在资源全投入的情况下,一般可以支撑3个9到4个9的专业系统可用率。例如,在运维操作全生命周期的管理和技术流程中,大量的生产和维护任务是人工处理的。当出现影响业务的重大故障时,问题定位效率低下,应急响应时间通常超过30分钟。在某些情况下,最多可能需要1到2小时。自动级是指通过工具、手动按键处理或报警触发处理实现自动化操作。这个级别的可用率可以支撑专业线系统在资源全投入时4个9以上的可用率。例如,生产运营中的标准运维操作大多是通过自动化工具完成的,包括管理流程、技术操作、日常运维等,当出现影响业务的故障时,可以通过一个隔离切换-点击紧急自动化工具紧急操作,从而将业务影响时间控制在30分钟以内。智能级别是指引入AI弱智能技术,防范隐患,当出现故障时,工具将自主进行全链条自愈恢复。该级别的可用率在资源充分投入和技术开发成熟后,可以支撑5个9以上的专业系统可用率。例如在生产运营运维中,将标准操作自动化后,可以基于智能工具对非标准运维操作进行预防性监控,进而在故障隐患前进行有效预测影响业务并进行计划维护,提前解决影响业务运营的问题。3、未来展望综上所述,数据中心可用率在高可用模式下要保持在99.99%以上,以年为周期,最终目标是提高到99.999%的世界级水平。网络宕机时间控制在5.4分钟以内。但是,以上指标对当前信息系统的可用性提出了很高的要求。在上述网络系统案例中,通过可用性的分层设计,结合架构设计和运维团队建设,可以有效支撑数据中心的高可用性。推动。未来,随着智能运维等IT技术的不断演进,数据中心的高可用提升路径将越来越丰富。通过“技术+运营”的创新,不断提升数据中心基础设施的高可用水平。为更好地维护国家网络安全和社会金融稳定。