数据中心已经从物理服务器发展到虚拟化系统,现在又发展到可组合的基础架构,其中存储和持久内存等资源已与服务器分离。同时,数据处理也从仅运行在CPU上发展到运行在GPU、DPU或FPGA上,以加速数据处理和网络任务的计算。同样,软件开发模型已经从在单台计算机上运行的程序演变为在数据中心运行的分布式代码,实现为云原生、容器化的微服务。在这个新世界中,开发人员需要一个可编程的数据中心结构来组合各种处理器类型和资源,以构建组织完成任务所需的平台。数据中心的第一个时代是以CPU为中心和静态的,通常在一台计算机上运行一个应用程序。软件运行在CPU上,程序员开发的代码只能在一台电脑上运行。因为资源分配是静态的,所以服务器经常被过度配置而未被充分利用。在数据中心的第二个时代,虚拟化成为常态,每台服务器上运行着许多虚拟机。它的资源是动态的,虚拟机是按需创建的。当需要更多CPU、内存或存储时,可以将工作负载迁移到不同服务器上的虚拟机。它的计算处理仍然主要由CPU执行,只是偶尔使用GPU或FPGA来加速特定任务。几乎所有的东西都在软件中运行,应用程序开发人员大部分时间仍然局限于在一台计算机上进行编程。第二代数据中心仍然以CPU为中心,只是偶尔加速。数据中心就是计算机今天,我们正在进入数据中心的第三个时代,称为加速分解基础设施(ADI),它基于可组合的基础设施、微服务和特定领域的处理器。下面分别讨论这些重要元素:?加速:根据最佳选择,不同的处理器可以加速不同的工作负载。CPU运行通用的单线程工作负载,GPU并行处理工作负载,数据处理单元(DPU)管理数据的处理和低延迟移动,以便CPU和GPU高效地获取所需的数据。例如,CPU可以运行数据库,GPU可以进行人工智能(AI)和视频处理,DPU可以快速、高效、安全地将正确??的数据交付到需要的地方。GPU加速的人工智能和机器学习现在得到广泛使用:改善在线购物、5G无线、医学研究、安全、软件开发、视频处理,甚至数据中心运营。云计算、容器和合规性问题的快速增长需要DPU来加速网络、存储访问和安全性。分解:将计算、内存、存储和其他资源划分到多个池中,并动态分配适当的数量给服务器和应用程序。应用程序本身通常是从交互的微服务构建的,而不是作为一个单一的代码块。这使得使用正确的资源比例编写应用程序并根据需要更改该比例变得更加容易。使用加速分解基础架构(ADI)模型,GPU、DPU和存储可以根据需要连接到任何服务器、应用程序或虚拟机。使用Nvidia的GPUDirect和MagnumIO等技术,CPU和GPU可以在网络上相互访问和存储,其性能几乎与同一台服务器相当。可以将正确数量和类型的GPU分配给需要它们的工作负载。每台服务器中的DPU管理和加速常见的网络、存储、安全、压缩和深度数据包检测任务,以保持数据快速、安全地移动,而不会对CPU或GPU造成负担。借助加速分解基础设施(ADI),数据中心成为新的计算单元-完全可由GPU和DPU进行组合和加速。要对数据中心进行编程,必须使用加速分解基础设施(ADI)对网络进行编程。数据中心是新的计算单元,网络结构提供了一个灵活、自动化的编程框架,可以动态组合工作负载资源。这意味着不仅要对CPU、GPU和DPU进行编程,还要对网络结构本身进行编程——将DevOps的优势扩展到网络,这种方法被称为“基础设施即代码”。该结构必须是可编程的、可扩展的、快速的、开放的、功能丰富的、自动化友好的和安全的。它必须在CPU、GPU和存储之间提供多条高带宽路径,并能够确定流量类别的优先级。通过在Spectrum交换机和基于BlueField的DPU上运行的CumulusLinux和SONiC,Nvidia提供了一流的端到端结构解决方案,可在整个数据中心堆栈中实现优化编程。这些解决方案(当然还有许多由NvidiaGPU提供支持的平台和软件框架)可以为客户提供出色的数据中心性能、灵活性、可组合性、可编程性,从而支持Nvidia公司的联合创始人兼首席执行官。黄仁勋的发展愿景。数据中心是新的计算单元,在NvidiaCorp.完成对MellanoxTechnologies的收购并计划收购CumulusNetworks时进行了详细讨论。使用AcceleratedDisaggregationInfrastructure(ADI),每个应用程序都可以运行在由CPU、GPU和存储资源构建的虚拟服务器上,DPU可以加速访问和安全性。开放式网络操作系统支持分解式基础设施传统上,交换机被设计为专有的“黑匣子”,网络操作系统(NOS)被锁定在特定的交换机硬件平台中,需要客户一起购买和部署。Nvidia的方法是提供最好的开放式端到端解决方案。客户可以使用具有最佳交换机ASIC(频谱)的交换机,并根据需要选择最佳网络操作系统(NOS):CumulusLinux、MellanoxOny、SONiC或其他。客户甚至可以选择在主干交换机上运行SONiC,同时在机架和园区交换机上使用CumulusLinux。与此同时,Nvidia销售电缆和收发器,不会将客户拒之门外,允许他们根据需要采购额外的电缆和光学器件。与专有的封闭式交换机模型不同,开放式网络允许客户从最好的软件和硬件中进行选择,以获得他们需要的正确功能、性能和可管理性。AI、云计算和HPC工作负载现在可以使用最佳资源(包括GPU、CPU、DPU、内存、存储和高速连接)灵活地运行在整个数据中心的任何部分。这种加速弹性计算的需求,而在过去,应用程序开发人员只能在单个服务器上编写程序,因为每个服务器都有自己专用的、隔离的资源。
