当前位置: 首页 > 科技观察

分布式架构是数据中心的未来吗?

时间:2023-03-18 22:05:52 科技观察

1。什么是数据中心?什么是数据中心?百度百科给出了定义:数据中心是一个由特定设备组成的全球协作网络,用于在互联网基础设施上传递、加速、显示、计算和存储数据信息。数据中心的大部分电子元件都是由低直流电源驱动的。数据中心的出现,使人们的认知从定量化、结构化的世界进入了不确定的、非结构化的世界。它将与交通运输、网络通信一样,逐渐成为现代社会基础设施的一部分,对许多行业产生积极的影响。影响。但是,数据中心的发展不能单靠经验,而必须真正结合实践,才能发挥数据中心的真正价值,推动社会的快速变革。2、为什么需要分布式数据中心?在发展方面,随着各行各业的蓬勃发展,数据中心正在高速建设。云计算、大数据、物联网等新技术的大规模应用,使得数据中心成为医疗、政府、互联网、金融等行业的建设重点。尤其是在银行、保险等领域,数据中心承载着核心业务,不允许任何数据中断,需要快速响应业务变化,具有一定的灵活性,成为名副其实的“生产中心”。反观数据中心,传统的集中式架构已经不能满足新时代的业务需求。基于分布式架构的数据中心是与集中式架构相对应的技术体系,包括分布式业务部署、分布式计算、存储、网络安全等分布式技术的集合。当传统数据中心无法保证业务的响应性、连续性和灵活性,发展到一定瓶颈时,分布式架构自然成为必然选择。在早期的数据中心建设中,大多数IT建设者并没有太关注所采用的技术架构,觉得并没有那么重要。数据中心建设的重点是使其承载的业务系统稳定运行,为服务器、存储和网络设备提供良好的运行环境,使业务系统不易“宕机”。因此,早期的数据中心大多采用烟囱式架构设计。每个业务系统都会配备一套独立的硬件设备。数据完全碎片化,导致设备利用率非常低,资源根本无法共享。典型的“标配”方案是采用两台高端小型机(或X86服务器)作为双数据库服务器,然后增加两台或多台应用服务器,在后面连接两台FC交换机(或IPSAN交换机)和一台存储服务器结尾。设备。直到现在,在很多招标文件中仍然可以看到类似的配置方案。当然,这并不是说这个配置方案不好或者是错误的。只能说,如果没有很好的规划和合理的使用,这样的配置会导致数据中心空间、能耗、制冷的大规模增加,设备数量也会增加。随意增加会严重影响经营管理效率。为应对信息化的快速发展,提高设备利用率和灵活性,云计算技术得到大规模推广和采用。云计算能够提供可用的、便捷的、按需的资源供应,逐渐成为主流的数据中心架构。目前,大多数行业的数据中心都已经具备了云计算能力。除了大型数据库等少数业务场景外,新的业务应用基本都是采用云模式构建,大量已有的业务应用也在不断向云计算环境迁移。在虚拟化环境中运行应用系统似乎已经成为一种常态。在云计算环境中,服务器虚拟化是云计算的基础技术之一。虚拟化软件厂商正在逐步将基于物理资源的数据中心转变为基于虚拟化资源的数据中心,有效控制数据中心服务器数量和规模的增长,提高服务器利用效率。同时,虚拟化系统的特性大大提高了数据中心系统的可靠性。尤其是在主动运维、容灾建设和故障转移等方面,对于数据中心的业务连续性来说是质的飞跃。现阶段,虚拟化技术的大规模应用,使得传统数据中心在不改变集中式架构的情况下,能够最大限度地实现资源整合和共享。但是,架构仍然没有太大变化。服务模式的变革。基于云计算架构的数据中心建设已经成为主流的建设模式,但在架构方面还有很多可以改进的地方。1、基于云计算架构的数据中心只能解决单个数据中心内的资源共享和使用问题,不能解决资源灵活扩展的问题。资源的增加仍然采用垂直架构。由于单个计算、存储或网络设备存在性能上限,扩展到一定容量后必须拆分,重新构建资源池,形成新的资源孤岛,并不能从根本上解决发展问题数据中心的问题。2、随着各行业信息化的发展,越来越多的企业需要在不同地区建设多个数据中心。例如,银行业和保险业将按照银监会和保监会的要求建设灾备中心,集团公司将建设分公司和数据中心。如何对这些数据中心进行统一管理和应用,保证业务连续性,解决业务协同问题,是对传统数据中心的巨大挑战。基于云的数据中心提供更多的服务。通常,当我们提到云计算时,我们指的是一种计算、存储、软件和其他服务的交互和使用方式。基于分布式架构的数据中心,更多的是指一种数据中心计算模型,而不是一种服务形态。它是云计算数据中心的技术基础和延伸。3、集中式和分布式架构的区别分布式架构数据中心在技术层面上主要包括两个概念:单数据中心分布式架构和多数据中心分布式架构。单个数据中心的分布式架构主要包括分布式计算、存储、安全网络等分布式技术的集合。多数据中心分布式架构主要是指将多个传统数据中心统一集成为一个数据中心。实现业务连续性容灾、多中心运维管理等。例如:使用统一的管理平台对不同地区不同规模的多个数据中心进行资源管理,使用统一的运维平台实现统一运营。3.1分布式计算体系结构根据分布式计算的定义,数千台计算机通过网络连接起来,形成一台虚拟的超级计算机,以解决单台计算机无法解决的大规模问题。数据中心的分布式计算更多的是指分布式软件架构。它是一种基于分布式计算技术解决大规模问题的软件架构。分布式软件架构具有更好的可扩展性,尤其是在处理大数据问题时,分布式架构可以显着提高处理速度。常见的分布式软件架构包括分布式操作系统、文件系统和数据库。以数据库为例,传统数据中心以单一数据库为基础,数据集中存储在一台服务器或存储上,数据处理也集中在单个或多个集群节点(一般为2-8个).传统的数据中心数据库以Oracle、Db2或MySql为主。但是,当单表数据量爆发或者单库无法承受高强度I/O时,集中式架构无法解决性能和数据处理瓶颈。淘宝最早使用的是Oracle数据库,也建立了全球比较大的Oracle数据库集群。但随着淘宝上用户量和商品信息量的增加,最终不得不走分布式数据库的路线。分布式架构数据库架构灵活,更适合分布式管理和控制,具有良好的可扩展性,易于扩展。当然,分布式数据库也有其自身的缺点,如数据一致性差、网络通信开销大、数据访问结构复杂等。但不可否认的是,在某些应用场景下,没有分布式架构的数据库,是很难管理和构建数据的。3.2分布式存储架构随着数据中心业务数据的不断增加,大数据的海量数据挖掘和日志分析正逐渐成为主要的应用场景。面对极其弹性的存储需求和性能需求,传统的数据中心单机或独立的SAN存储设备基本无法满足大数据处理的需求。与数据库系统一样,独立存储设备在性能和数据存储容量方面也面临着一定的瓶颈。传统数据中心通常采用集中式存储架构。单台SAN或IPSAN存储设备通常配置2-8个控制器,通过存储扩展柜进行容量扩展。如果提高性能,需要增加控制器和缓存,甚至需要将存储设备模型更换为高端存储。集中式存储架构下,单个存储设备的性能和扩展性有限,一般无法实现线性扩展。随着存储容量的增加,存储性能会先上升,达到一定瓶颈后逐渐下降。因为一开始加入大量的磁盘会提高存储的整体读写性能,但是当磁盘的性能达到控制器的性能时,就会严重影响控制器的数据处理和运行,性能会逐渐下降。面对海量PB级数据,如果采用传统的独立SAN存储设备,要么无法实现可扩展性,要么可扩展性达到海量PB级,但容量和性能不会线性增长,未来的存储扩容和运维成本也会非常高。高的。数据中心面对大数据业务增长日益增长的需求,首先必须能够存储大量的数据。传统存储系统容量有限,无法跨越多个存储设备。即使采用虚拟化技术整合存储资源,单位存储成本也会非常高,数据处理性能也受到限制。以Hadoop为例,它是一种相对成熟、应用广泛的大数据处理分布式开源软件。最底层是HDFS分布式存储。HDFS设计的本质是为大量数据的分布式存储而存在的。HDFS可以将数据存储在许多不同的机器上。并且用户不必关心具体数据在哪里,HDFS会管理这些数据。HDFS是一种高度容错的分布式存储系统。可以分布式部署,以流式访问方式访问应用数据,可以大大提高整个系统的数据吞吐量,非常适合数据集非常大的应用,并且随着整个分布式的扩展存储系统,容量会与性能成正比线性增长,非常适合大数据的业务处理和应用。基于分布式架构的数据库和存储是未来数据中心必不可少的发展方向之一。没有分布式架构,数据中心将无法管理大数据。3.3基于云计算技术的分布式安全网络数据中心为应用部署带来了灵活性和资源弹性配置,提高了硬件资源利用率,缩短了部署时间,但同时也引入了新的安全问题。传统的数据中心网络安全是一种基于安全域和安全边界的保护机制。是一套垂直的安全策略,只关注业务流量的访问控制,流量安全控制是唯一的规划考虑。虚拟化技术的广泛应用使得网络边界变得模糊,主要依靠横向安全策略,可以满足安全流量向其他物理服务器的动态迁移。传统上基于虚拟化环境中的应用模型,虚拟化的服务提供模型使得识别、控制和审计用户身份、权限和行为变得更加困难。这将导致许多传统的基于数据中心的安全保护方法失效。云计算数据中心,一台服务器设备中运行多个虚拟机,虚拟机之间通过虚拟交换机连接,通信流量不经过外部交换设备,导致这部分监控丢失传统安全设备的流量。目前,大多数虚拟化软件厂商都没有提供高效的虚拟机通信流量检测和隔离方法。如果虚拟机存在安全问题,可能会对相关资源池造成严重的安全威胁。此外,虚拟机可以随时迁移到其他服务器设备,造成动态的安全域边界,传统的数据中心固定边界保护方式也会失效。当虚拟机迁移到新的服务器设备时,如果新的服务器设备没有相应的安全保护策略,则可能对迁移后的虚拟机造成安全威胁。为了解决云计算数据中心存在的安全问题,需要分布式部署安全管理软件或系统。通常分布式网络安全产品由集中式管理平台+分布式安全管理软件组成。集中管理平台负责安全策略的集中管理,为安全策略的迁移提供支持。同时接收虚拟化安全设备的日志和统计信息,分析整个数据中心的安全状况。安全软件分布式部署在虚拟机和虚拟化平台上,可以克服传统物理安全设备的局限性,更贴近虚拟机所在位置。它使用引流或重定向机制来获取所有虚拟机的流量,以实现分布式安全。安全保护。3.4分布式云数据中心传统数据中心为实现业务高可用,保证业务连续性数据,防止数据丢失,采用“同城主备/双活数据中心”或“三中心同城”架构两个地方”。但无论采用哪种架构方案,都会存在一定的IT资源浪费。“主备数据中心”解决业务连续性问题,但通常只启用一个数据中心资源,另一个用于备份。“双活数据中心”解决了服务的高可用问题,但是两个数据中心需要部署和运行同一个服务,这也浪费了一个数据中心的资源。“两地三中心”,虽然在很大程度上考虑了业务和数据的安全,但IT资源的浪费最为严重。在分布式云数据中心的概念中,多个数据中心不再是主备或双活的关系,而是通过云计算技术、广域网二层网络互联(biglayer-2)技术和数据复制技术,多个数据中心形成一个分布式的跨中心、跨地域的“虚拟资源池”。所有业务和数据都可以根据需要分配到不同的数据中心,实现比“双活”或“两地三中心”更好的业务部署方案。基于分布式架构的云数据中心,过去可能受限于技术,难以实现。不过随着各种技术的不断发展,难度已经大大降低,完全可以实现。主要考虑三个问题:业务接入网络、大二层网络和数据同步复制。业务接入网络可以通过全局负载均衡GLSB和智能DNS实现不同区域的本地访问,使用大规模二层互联网技术可以解决虚拟机迁移问题。可以使用微服务+容器+分布式存储复制技术解决数据同步复制。通过微服务解耦业务,无状态应用使用容器通过大二层网络迁移,有状态应用可以跟随虚拟机迁移,冷数据尽量集中存储,共享访问,避免过多的数据迁移避免。目前已经有解决方案可以落地,帮助企业实现分布式架构的云数据中心。同时,还可以最大限度地利用数据中心资源,降低运维和管理成本,更好地保证业务连续性。3.5两种架构在资源处理能力、业务支撑能力、安全管理能力、可用性和一致性、运维管理等方面的主要区别从上面对集中式和分布式架构的分析可以看出:集中式架构有在系统复杂度、数据一致性、安全措施实施便利性、运维管理复杂度等方面具有一定优势。分布式架构在资源使用成本和可扩展性、业务部署的灵活性、系统可用性等方面具有明显优势。而且,集中式架构可以通过加强管理和设计来降低复杂度,可以通过增加安全系统和手段来加强安全措施,数据一致性需要先进的分布式系统和大规模运维平台的支持。当然,前提是需要牺牲一定的可用性,这也是分布式架构面临的一个挑战,我们将在下面详细讨论。4、分布式架构建设的挑战随着数据中心信息系统数量的增加和处理数据量的增加,分布式架构的优势将越来越明显。但是,架构越先进,面临的挑战也越大。由于分布式架构采用多节点设计,这种架构最大的难点在于会带来数据一致性和可用性方面的挑战。所有的分布式架构设计都围绕着Donotopen这两个挑战展开。在分布式架构中,有一个非常著名的CAP理论(也称为布鲁尔定理),其定义如下:对于任何分布式计算系统,不可能同时满足以下三点:一致性(Consistency)、可用性(Availability)和容忍网络分区(Partitiontolerance)。一致性通常是指数据的一致性,要求所有节点数据一致。可用性要求每个节点都可以在发生故障时提供服务。对网络分区的容忍度通常是指节点间网络通信的性能。根据CAP理论,一个分布式系统只能满足其中两个,不能同时满足三个。CP模型:无论A(availability)如何,多个节点之间的数据具有强一致性。如果一个节点发生故障,则该故障节点将被丢弃(与A无关),否则节点之间的数据同步将被无限延长。为了保证数据的一致性,金融行业的分布式关系数据库大多采用这种模型,AP模型:C(一致性)没有考虑,多节点之间要求高可用。如果一个节点发生故障,与其他节点失去联系,为了保证该节点的可用性,将放弃全局数据一致性(不考虑C)。节点访问和使用本地节点数据,各个节点数据会造成不一致。大多数非关系数据库采用这种模型是因为不需要高度的数据一致性。CA模型:无论P(tolerancetonetworkpartition)如何,两个或多个节点必须具备可用性,同时要求数据一致性。如果一个节点出现故障,为了同时保证可用性和数据的一致性,分布式网络只能强行分区,分成多个不同的分区来保证C和A,这会导致分区分裂。从以上模型我们可以看出,在分布式计算环境中,P必须是现实的,否则分布式网络节点之间的通信就会出现问题,所以只能在C和A中二选一,即选择CP模型或者AP模型,实际选择需要根据各模型的特点,根据自身的业务场景进行选择。对于一些不需要高可用的离线应用或服务,可以使用CP模型。这类模型比较简单,但应用场景有限。例如,在日志数据分析系统中,大部分数据都存储在本地。我们只需要在分布式架构中配置一定的冗余节点和恢复机制即可。如果一个节点出现故障,分析系统会自动等待其他备份节点恢复后再继续运行,因为短暂的停止对系统影响不大,但是每个节点分析的数据要求必须是一致的。在数据中心中,核心系统和重要业务系统占据了很大的比重。如果采用分布式架构,可能需要高可用性和数据一致性。这对于分布式架构设计来说是一个比较大的挑战。以金融行业为例,保证业务连续性和高可用是非常重要的需求,可以采用AP模型进行设计。但是要尽可能保证数据的一致性,因为如果财务系统中的数据不一致,就会出现严重的数据问题。关于数据一致性,分布式架构可以分为强一致性、弱一致性和最终一致性。为了保证金融系统的高可用和业务连续性,数据的强一致性很难做到,弱一致性也不能满足要求。作为权衡,可以实现数据的最终一致性。在分布式系统中,数据会存储在多个节点中。各节点的数据被应用程序修改后,最终一致性并不要求各节点同时更新数据,而只要求各节点更新后的数据尽快分发到整个系统即可,从而在保证系统可用性的同时实现数据的最终一致性,保障金融行业的数据需求。当然,并不是所有的金融服务都能采用最终一致性方案。例如,核心实时交易系统必须实时处理数据并保持强一致性。这就是为什么大多数金融机构的核心交易系统仍然采用中心化架构的原因。的原因。分布式云数据中心在建设过程中也面临着一些挑战,主要包括网络、存储和计算三个方面:在网络方面,多个分布式云数据中心之间的通信是一个问题。需要考虑多个不同区域的网络接入和负载均衡问题。它还需要满足多个云数据中心之间的业务通信和切换需求。目前主流的技术方案是基于大二层网络技术,将多个数据网络连接起来,形成一个统一的逻辑网络。但是,目前各个网络设备厂商之间的大规模二层网络和协议并不统一,在设备兼容性方面存在一定的问题。这也是分布式云数据中心转型需要解决的问题。在存储方面,如何实时同步数据,实现统一的存储资源共享,建立高可靠的数据保护机制,是一个严峻的挑战。多个数据中心可能分散在不同的区域,每个数据中心之间的网络带宽是有限的。可能无法实现数据的实时同步,只能采用异步传输。那么可能无法保证数据的一致性和完整性。上面提到的应用解耦+微服务架构可以解决部分问题。但是,传统应用无法微服务化仍然是一个难题。在数据一致性和可用性方面可能会有一些权衡。在计算方面,目前的技术已经比较成熟。资源云化后,可以利用云计算技术,实现多个云数据中心计算资源的统一调度和管理。您还可以设置权限进行细粒度管理。计算挑战通常是指计算资源的管理。例如,当某个应用出现故障时,是在本地重建这个资源,还是在另一个云数据中心迁移重启,因为这会影响到各个节点的其他业务访问,需要提前统一规划和安排。五、结论与传统数据中心相比,构建分布式架构的云数据中心是非常有必要的,这影响到数据中心建设的方方面面。未来,没有分布式架构的数据中心肯定不是优秀的数据中心。通过云计算技术的不断发展和实践,相信分布式架构一定会成为数据中心未来的发展方向。即使未来数据中心的架构不是完全分布式,分布式架构也永远不会缺席,分布式架构肯定会有一席之地。