当前位置: 首页 > 科技观察

数据中心服务器技术发展趋势与应用

时间:2023-03-20 14:24:09 科技观察

在性能方面,人工智能(AI)应用的快速扩展要求IT云采用高性能GPU服务器。人工智能在电信行业网络覆盖优化、批量投诉定界、异常检测/诊断、业务识别、用户定位等场景得到大规模应用。大量AI应用需求的出现,要求部署在数据中心的服务器具备更好的计算性能、吞吐量和时延性能。以传统的通用x86服务器为核心的计算平台似乎无法如愿以偿。因此,GPU服务器进入了运营商IT建设的历史。阶段。在效率和成本方面,在IT云中部署通用服务器存在劣势,这导致了对定制化整机架服务器应用的需求。在IT云建设过程中,由于业务需求快速增长,IT云资源池扩容压力大,云资源池服务器数量快速增长,需要提高在线效率紧急改善。同时,传统的通用服务器部署模式存在周期长、部署密度低的缺点,给数据中心空间、电力、建设成本、高效维护管理带来了巨大挑战。整机柜服务器成为IT云建设的又一选择。在节能方面,AI等高密度应用场景的快速发展,带动液冷服务器成为热点。随着AI高密度业务应用的发展,未来数据中心服务器的功率将从3kW发展到5kW再到20kW甚至100kW甚至更高。传统的风冷服务器制冷系统解决方案已经不能满足制冷需求,液冷服务器成为AI应用。一个有效的解决方案。GPU服务器技术的发展趋势及其在电信行业的应用GPU服务器技术的发展趋势是单指令、多数据处理架构,与CPU协同工作。根据CPU和GPU的互联架构,GPU服务器可以分为两类:基于传统PCIe架构的GPU服务器和基于NVLink架构的GPU服务器。GPU服务器具有通用性强、生态系统完备等明显优势,因此牢牢占据AI基础设施市场的主导地位。国内外主流厂商纷纷推出不同规格的GPU服务器。国外主流厂商有英伟达、英特尔、戴尔等,国内主流厂商有华为、浪潮、新华三、联想、曙光等,从GPU服务器性能来看,国内外厂商基本处于同一水平。GPU服务器在运营商IT云建设中的应用目前,电信行业已经开始推动GPU服务器在IT云资源池中的应用,部分GPU服务器已经部署在省级公司的现网中。同时,考虑到GPU成本较高,集团公司构建统一的AI平台,集中部署一批GPU服务器,形成AI资源优化配置。从技术选型来看,目前运营商的IT云资源池大多采用Nvidia、Intel等相关产品。GPU服务器在IT云应用中取得了不错的成绩。在现网部署的GPU服务器中,与训练和推理相关的深度学习应用占主要部分,占比超过70%。支持的业务包括网络覆盖智能优化、用户智能定位、智能营销、智能审计等。该应用减少了人工投入成本,提高了工作效率。以智能审核为例,以往无纸化业务单据人工审核平均耗时48秒左右,而AI审核时间平均仅需5秒左右,审核效率提升90%。同时,无纸化业务单据人工审核成本约为1.5元/份,使用GPU进行AI审核成本约为0.048元/份,审核成本降低96.8%。整柜服务器的发展趋势及其在电信行业的应用整柜服务器技术的发展趋势整柜服务器是按照模块化设计思想构建的服务器解决方案。系统架构由机柜、网络、电源、服务器节点、集中制冷、六个子系统集中管理,是数据中心服务器设计技术的根本变革。全机柜服务器将电源单元和散热单元集中在一起,通过节省空间来提高部署密度,其部署密度通常可以提高一倍。集中供电和散热设计使得整机柜服务器仅需配备传统机柜服务器10%的电源即可满足供电需求,供电效率可提升10以上%,单台服务器能耗可降低5%。机架式服务器在运营商IT云建设中的应用国内运营商纷纷推动机架式服务器在IT云建设中的部署。经过实际应用测试,它们在以下几个方面具有明显的优势。一是工厂预制,交货期大大缩短。传统服务器的交付效率低下。使用全机架服务器,将原本在数据中心现场进行的服务器开箱、上架、布线等工作转移到了工厂。部署粒度从一个增加到几十个,交付效率大幅提升。.以一次性交付1500台服务器为例,可减少交付工作量170-210人日。如果每天分配10人,现场交货时间可节省约17-21天。其次,资源池化减少了元器件数量,大大降低了故障率。全机柜服务器通过集中供电、散热等部件资源,大大减少了部件数量,大大降低了故障率。图1比较了32节点全机架服务器与传统1U和2U服务器型号在一年内的电源组件数量和月故障率。由于32节点全机架服务器包含10个电源组件,而32台1U通用服务器有64个电源组件,因此全机架机柜的电源组件数量减少了84.4%。由于电源组件数量的减少,32节点全机架服务器的月故障率相比32台1U通用服务器也大大降低。图1机架式服务器与传统服务器月故障率对比。三是运维效率提升60%以上。整机柜服务器出厂预制机柜布线,网线出厂前加工。线缆长度精确匹配,线缆管理简单,布线方式统一规范。通过运维标签,节点在运维时可以更加方便和简洁。实施运维操作,有效减少运维误操作,提升运维效率60%以上,故障发生后大幅缩短故障恢复时间。液冷服务器技术的发展趋势及其在电信行业的应用。整体IT设备包括冷板冷却、浸没冷却和喷淋冷却三种形式。液冷服务器可针对CPU热岛进行精准定点降温,精准控制散热分布,真正将高密部署带到前所未有的更高水平(如20kW~100kW高密数据中心),是其中之一数据中心节能技术的发展方向,三种液冷技术的比较如表1所示。表1三种液冷技术的比较液冷服务器在运营商IT建设中的应用低液冷服务器的兼容性和液冷服务器专用冷却液的高成本是液冷服务器没有得到广泛推广的重要原因。从液冷服务器在运营商数据中心领域的具体应用案例来看,运营商在规划和建设IT云资源池时,通常会对液冷服务器的发展现状和技术成熟度进行分析论证。考虑到目前液冷服务器的大规模应用尚处于起步阶段,需要3~5年的导入期,在IT云资源池建设中尚未大规模部署,但有部分地区小规模应用,如中国移动南方基地数据中心已开展液冷服务器试点应用,联通研究院也在研发边缘数据中心的喷淋式液冷系统服务器。未来,随着IT云建设规模和密度的不断提升,以及液冷行业生态的逐步成熟,液冷服务器在IT云建设中将有更大的应用空间。总体而言,运营商IT云资源池建设对服务器计算性能、时延、吞吐量、散热、定制化、分布式部署等提出了更高的要求。未来,GPU服务器、定制化全机架服务器、液冷服务器等新兴服务器技术将快速迭代,为运营商数据中心服务器技术的发展演进带来新的思路和路径。