当前位置: 首页 > 科技观察

阻挡HPC前行的“最后一公里”,打破“存储墙”迫在眉睫

时间:2023-03-21 17:03:09 科技观察

无论是飞向月球的“嫦娥五号”、飞向火星的“天问一号”,还是飞向火星的“天问一号”,打破阻碍高性能计算“最后一公里”的“存储墙”迫在眉睫。米深海下的“蛟龙”,或者在抗击疫情中利用AI进行CT图像识别,几乎任何伟大的科学成就和产业创新都离不开高性能计算机的强大支持。例如,为确保嫦娥五号能顺利从月球上取回土壤,在发射前,需要模拟发射的全过程,包括轨道修正、近月制动、装配分离、月球着陆、月球表面采样和月球表面采样。上升、交会对接和样品转移、绕月等待和转移到月球和地球、轨道器和返回器分离、降落地球等,这个过程需要使用高性能计算机进行大量的模拟分析论证方案的可行性。除了发射前的模拟测试,在发射后的飞控过程中,需要实时采集大量的飞控数据进行实时处理和分析,从而更好地判断相关设备的运行状态并及时进行飞控调整。这也是为什么领先的科技和工业强国宁愿投入巨资在全球超级计算机产业中占据一席之地。超级计算机不仅是一个国家综合科技实力的象征,也是产业创新、国防建设、科学研究、石油勘探等重要经济产业的发展基础和动力源泉。HPC超级计算机的诞生和发展是与高性能计算机相对应的一个概念。通常,信息处理能力至少比个人计算机快一到两个数量级的计算机被归类为高性能计算。超级计算机的发展源于大型科学项目对超高强度计算和海量数据处理的应用需求。说到世界上第一台计算机,大家都知道它诞生于1946年的宾夕法尼亚大学“ENIAC”,但很少有人知道ENIAC是美军为了满足美国阿伯丁试验场的计算需要而研制的弹道学。在中国广泛使用“算盘”的时代,“ENIAC”堪称当时的超级计算机。从“ENIAC”诞生算起,到20世纪50年代中后期,以美苏为背景,计算机被广泛应用于导弹和核武器的计算和研究。这一时期的计算机具有体积大、功耗高、可靠性高的特点。可怜的性。直到1958年晶体管的出现,计算机的体积开始大幅度缩小,运算速度最高提高到300万次。这些都可以算是超级计算机发展的前身,但都只是用于国家主导的军事科研项目。超级计算机真正迎来了大发展,是从1964年集成电路的大规模应用开始的。我国超级计算机的发展就是从这个时期开始的。迄今为止,大致经历了三个阶段:第一阶段,从60年代后期到70年代后期,主要从事大型机并行处理技术的研究;第二阶段,从20世纪70年代后期到80年代后期,主要从事矢量计算机的研究和并行处理系统的开发;第三阶段,从20世纪80年代后期到现在,主要从事MPP系统和工作站集群系统的开发。1983年12月22日,我国第一台每秒运算次数超过1亿次的“银河一号”超级计算机研制成功,真正跨入超级计算竞赛行列。时至今日,中国神威太湖之光和天河二号不仅成为全球超级计算机TOP500的“常客”,更成为榜单上的实力派选手。如今,这些拥有每秒万亿次浮点运算能力的超级计算机已经不再局限于军事科研项目,在CAE仿真、动画渲染、物理化学、石油勘探、生命科学、气象环境等领域都有应用。广泛使用。HPC正在逐渐走向平民化。在大型机时代,高性能计算基本上是IBM最擅长的。从1960年代到本世纪初,全球超级计算机排行榜基本上都是以IBMPOWER处理器为核心,通过海量并行级联搭建的平台。近二十年来,随着PC和服务器需求的快速增长,巨大的市场需求支撑了X86处理器性能的快速提升。以X86处理器为核心的高性能计算产品日趋成熟。在GPU计算加速卡的支持下,正在推动HPC在更多领域的普及。同时,面向典型行业的高性能计算蓝图参考架构、高性能生态联盟、高性能应用框架,降低了高性能计算架构部署管理难度和应用开发强度,进一步降低了高性能计算的技术门槛。此外,企业日益增长的数字化转型和智能化升级需求也成为推动HPC普及的重要动力。随着企业数据量的快速增长和大数据、人工智能、深度学习等技术的快速融合,企业依靠更高性能的计算能力来提供业务创新和数据分析决策。尤其是近两年备受关注的自动驾驶汽车、人脸识别、医疗诊断、工业智能、商业决策等,都以大数据为核心支撑,HPC成为重要支撑人工智能模型训练平台。大数据与HPC的结合衍生出了HPDA(HighPerformanceDataAnalysis,高性能数据分析)技术。根据IDC数据,目前67%的HPC资源用于HPDA,机器学习/深度学习、欺诈检测等需求是典型应用。大数据时代的到来,将使HPDA应用成为HPC的下一个强劲增长点。预计到2021年,全球HPC存储市场空间将达到148亿,其中新兴的HPDA和基于HPC的AI场景将以年化17%和29.5%的速度快速增长。在新发布的超级计算机TOP500榜单上,连续两年蝉联第一的Fugaku(富岳)超级计算机在新的混合精度HPC-AI基准测试中的性能提升至2.0exaflops,超过六个月前的1.4exaflops.百亿亿次记录。日本之所以高度重视该指标,一定程度上反映了日本超级计算机的发展思路,即针对日益丰富的AI场景应用,打造更高性能的超级计算平台。这一技术建设趋势与IDC最新研究报告对新兴HPDA和基于HPC的AI场景应用的预测非常吻合。随着CPU、GPU等处理器性能的快速提升,以及多元化算力的融合发展,构建HPC的门槛和难度大大降低。HPC从小众走向大众是必然趋势。HPC作为计算能力更强的平台,不仅作为数字经济和新基建时代的重要基础,还将继续在科研、天文、能源、军事等新兴领域发挥重要作用、大数据分析、智慧医疗、深度学习、人脸识别等,更广泛地服务于大众需求。HPC进步的存储瓶颈这是最好的时代,也是最坏的时代。随着5G、大数据、AI等技术的快速发展,我们看到了HPC、大数据和AI的融合趋势,坚信HPDA、基于HPC的AI等HPC新兴场景将在各行各业全面开花生活。HPC普及时代已经到来。然而,在摩尔定律驱动的CPU性能快速提升的过程中,HPC的发展却面临着存储与I/O速度与计算能力之间日益不匹配导致的“存储墙”问题。众所周知,在计算机发展的过程中,CPU性能的增长远高于存储性能和I/O性能的增长。因此,在计算机的不断发展过程中,计算、存储和I/O之间的速度差距会越来越大。.某机构2014年数据中心性能调查显示,CPU性能提升52%,内存性能提升9%,I/O性能提升6%,而存储性能提升最慢,因为没有只与介质的物理性能有关,还与存储协议有关。这种媒介和协议的变化实际上是非常缓慢的。存储性能落后于CPU和内存带宽性能,这意味着数据访问能力落后于数据处理能力。对于高性能计算机来说,由于采用了并行计算机架构,多个CPU和GPU级联产生的高性能并发计算能力将如潮水般涌来,使得“存储墙”问题更加难以攻克。最终的结果是CPU闲置和等待内存访问所花费的时间占了很大比例,并行计算的效率大大降低。目前,大规模并行计算机在实际应用中的效率仅为5%左右,存储性能成为提高效率的最大制约因素。随着HPDA、基于HPC的AI等新兴场景的全面应用,企业对高性能、实时大数据分析的需求将更加迫切。在高性能计算领域,目前华为和英特尔正在通过统一和多样化异构计算能力解决高性能计算产业发展中的算力需求,并取得了显著成效。为了攻克“存储墙”问题,包括华为在内的一批厂商也在努力。通过技术创新,他们正在深入研究智能存储架构、高性能存储技术等关键技术,以缩小存储与计算之间的性能差距。打通HPC的“最后一公里”。