当前位置: 首页 > 科技观察

H3C李力:研究计算新技术,促进算力均衡发展

时间:2023-03-12 16:45:56 科技观察

7月29日至31日,中国算力领域首届全国性会议——2022中国算力大会在山东济南召开。院士、专家、企业精英齐聚一堂,共商算力产业发展大计。清华紫光集团旗下新华三集团应邀参加了此次活动。新华三集团副总裁、解决方案事业部总裁李力出席主论坛并发表演讲,分享了新华三集团对算力和网络融合背景下技术发展趋势的深刻见解。新华三集团副总裁、解决方案事业部总裁李力发表主旨演讲今年2月,“东方计算,西方计算”项目正式启动,我国算力基础设施建设步伐更进一步加速。然而,随着算力应用场景的不断拓展,数据规模呈爆炸式增长,算法复杂度不断增加,产业发展面临的挑战也在不断上升。李力表示,算力行业主要面临着工业智能化需求不断增长与算力发展不平衡不充分的矛盾。要从芯片级、设备级、集群级、区域级四个维度寻找突破口。通过核心技术研究,解决从芯片到广域的IO不平衡问题,推动算力产业高质量发展。芯片层面:“存算一体化”构筑算力基石在摩尔定律的推动下,芯片不断向高性能、低成本、高集成度方向发展。但随着单颗芯片集成的晶体管数量增多、能耗高等问题导致芯片性能难以持续提升,制约了算力的释放。李力指出,多芯片堆叠封装为芯片突破性能瓶颈提供了可能。算力与IO的平衡是计算网络融合的算力基石。未来,新华三集团将与产业界一道,积极推进相关标准建设,实现片上算力与片间互联的均衡发展。设备层面:互联设计实现多维度性能升级从设备层面来看,CPU、总线速度、主存带宽和容量的发展速度各不相同。在冯·诺依曼体系下,主存成为性能增长的主要瓶颈。内存容量的增长速度没有CPU核心快,内存带宽也不足。此外,CPU、内存、GPU一体化设计成为IO与计算协同发展的制约因素。IO设备层面的性能提升需要寻找新的优化方向。突破冯诺依曼系统是一个新思路。目前,利用扩展总线的Scale-out模式换取IO提升已经成为提升设备算力的有效手段,如PCIeSwitch、CXLSwitch、NVSwitch、NVMeoverFabric等。业界已经开始尝试多种总线互连和扩展技术。从内存、GPU、存储等多个角度出发,从互联设计的角度,对资源进行分布式和池化,以平衡数据IO和计算密度。集群层面:AI+网上计算,保证算力拓扑最优随着数据中心集群规模不断扩大,传统的spine-leaf网络架构已经不能满足大规模算力集群的通信需求。部分算力中心采用DragonFly等架构进行大规模网络互连拓扑,业界不断研究最优拓扑架构,在保证高带宽和低时延的情况下实现横向扩展性能的线性增长。李力认为,算力拓扑也是构建高性能算力中心的关键环节。利用人工智能技术和网络设备的在线计算能力,可以实时收集和分析网络、设备、流量等综合信息,并通过强化学习。业务流量模型进行算力拓扑规划和动态调整,保证算力拓扑始终处于最优状态,满足大规模计算集群的部署需求。近年来,新华三集团不断迭代网络拓扑结构,以实现大规模算力部署与高性能数据中心网络的平衡,满足算力扩展的需求。区域层面:确定性服务支持广域算力互联调度。“东数据西计算”工程拉开了算力跨域调度建设的序幕。未来,算力中心将跨区域互联,形成算力网络。对算力调度的保障和在线算力的优化建设提出了更高的要求。在李力看来,确定性服务是广域算力互联调度的关键点,在实际应用中具有诸多优势。在网络传输层面,传统的广域网传输是一种尽力而为的转发方式。通过引入确定性网络技术,可以保证网络层面全方位的确定性传输,数据跨区域传输时延是确定可控的;在算力调度层面,通过分布式计算网络的大脑,对可用算力容量、成本、网络传输效率等多维度属性进行统筹考虑,为客户提供确定性、有保障的服务。算力网络涉及网络、云、数据、智能等多个领域的技术,需要多条产业链的高效协同。任何一个薄弱环节都可能影响整个行业的演进过程。目前,新华三集团持续为行业客户提供涵盖云、网、边、端各场景的全方位算力服务,包括算力供应、算力调度、算力赋能、算力安全、绿色算力。同时,拟与行业专业机构联合推出行业算力发展指数。通过对行业算力发展水平的多维度评估,找出影响算力发展的关键障碍,助力算力行业实现“共同富裕”。算力与网络的融合发展是大势所趋。只有把握计算网络融合新趋势,加强计算网络核心技术研究,构建产业生态,形成合力发展,才能更快更好地建设优质算力网络,让算力成为惠及大众的生产力,进而推动各行各业的数字化转型进程,推动我国数字经济平稳健康发展。