当前位置: 首页 > 科技观察

中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变

时间:2023-03-12 07:16:36 科技观察

中国如何赢得新一轮超算竞争?关键在于向数据密集型超级计算过渡在超级计算机排名的国际竞争中,今年和明年将达到一个临界点。各国筹备多年的“E级超算”(每秒100亿次以上浮点运算)将重点在2021-2022年完成部署。你可能还记得“神威太湖之光”这个名字。我国这台超级计算机在2016年国际排名第一,仅仅两年后,美国的Summit超级计算机就迎头赶上,每秒20亿次浮点运算的峰值速度超过了神威的12.5亿次浮点运算每秒。两年后,日本富岳以每秒50亿次运算(0.5E)的峰值速度再次刷新纪录。△图源:YouTube@WhatDaStat虽然富岳依旧位居榜首,但被E级机超越也不会太远。(E级机中的E是指Exa,是比P(Peta)大一级的单位。)美国至少有三台E级超级计算机在筹备中,美国能源部已经为此投入了超过18亿美元。计划于今年部署的Frontier,峰值速度为1.5E;极光将在2022年紧随其后,目标速度为1E;2023年会有ElCapitan,原计划1.5E,施工时增加到2E。这只是美国政府部门牵头的一个项目。如果包括企业,特斯拉正在建设的Dojo超算的目标速度也是1E。我国还有3个E级超算项目在进行中。天河三号、神威E级和曙光E级样机均在2018-2019年研制成功,目前正在紧锣密鼓地进行全体建造。此外,日本和俄罗斯也推出了自己的E级机计划,欧盟也投入了80亿欧元用于超级计算机的新建和改造。谁能率先拥有一台E级机,成为大国超算竞争的下一个关键点。国际超级计算排行榜“TOP500”每年分别在6月和11月公布两次。谁将赢得这一盘可能很快就会公布。是什么让各国的计算能力不断提升?当超算遇到数据,要回答这个问题,我们需要从两个方面来看。一方面是尖端技术发展的需要。超级计算机之所以被称为“超级”,是因为它强大的计算能力可以把不可能变成可能,把不切实际变成现实。如果你觉得现在的天气预报比小时候准确多了,那是因为计算能力的提高。过去,由于计算能力不足,我们只能对天气现象进行模糊定位。那时,我们经常在电视上听到“部分地区有雨”的说法,而现在我们可以随时在手机上查看未来两小时的准确降雨云图。计算能力的发展使天气预报的准确率从过去的21.8%提高到现在的90%。不准确的天气预报在日常情况下似乎无关紧要,但近年来极端天气现象却频频发生。台风和降雨的准确预报可以挽救许多生命。与拯救生命相关的还有生物医学领域。这些年计算能力的发展,让基因测序的时间从13年缩短到1天,新药研发和鉴定的周期从5000天缩短到100天。目前,为了让疫苗研制的速度快于病毒的变异速度,各国也纷纷动用超级算力。此外,天体物理、地震预报、石油勘探、国防军事、新材料发现等领域也需要强大的计算支持。另一方面,新闻中总能听到的“行业数字化转型”,其实意味着计算能力已经渗透到经济运行和人们生活的方方面面。今年,宝马与英伟达合作,在数字世界中重建整个生产流程,通过模拟进行优化,生产效率提升30%。这项技术被称为“数字孪生”,意思是将现实世界中产生的历史运行数据、传感器数据、统计数据全部搬入数字世界,尽可能还原现实世界的一个副本。据权威市场研究公司IDC预测,到2022年,75%的企业将把智能自动化嵌入到技术和流程开发中。到2024年,人工智能将成为每个企业不可或缺的一部分。从现实世界的镜像到数字世界的数据将会爆发式增长。甚至可以说,未来智能产业的运行速度取决于数据分析的速度。随着工业的数字化,数据的构成发生了变化。据IDC预测,到2025年,80%的数据将是非结构化数据。非结构化数据很好理解,比如散布在网络上的文章、文档、图片、音视频等,只要不是以行和列组成的二维表结构来表达,就认为是非结构化数据。中国科学院院士陈国良认为,如果说数据是数字世界的新石油,那么非结构化数据就更难处理,就像页岩油一样,是石油中最难开采的。处理复杂的非结构化数据需要一种新技术,称为海量数据的高性能数据分析(HPDA,HighPerformanceDataAnalytics)。简单来说,HPDA的实现需要超算、AI算法和大数据的结合。这种超级计算也可以称为数据密集型超级计算,即利用超级计算的并行处理能力运行强大的人工智能算法,从海量数据中提取价值。据全球高性能计算市场研究机构HyperionResearch预测,未来数据密集型超级计算的市场份额将是传统超级计算增速的数倍。到2024年,超过40%的高性能计算市场将来自数据密集型超级计算。这也让人期待,未来我们会在哪些场景下看到数据密集型超级计算?数据密集型超级计算用在哪里?其实这个问题应该反过来看。正是应用场景对算力需求的变化,推动了超级计算向数据集约化方向发展。一台超级计算机从规划到建设再到投入使用需要几年的时间,所以它最初是为未来可能的应用而设计的。比如在生物医学领域,今年发生的一件大事就是DeepMind开源了一个新的蛋白质结构预测模型AlphaFold2,预测了98.5%的人类蛋白质结构。在此之前,科学家们数十年的努力只覆盖了人类蛋白质序列中17%的氨基酸残基。在基因测序方面,最早的人类基因组计划耗资30亿美元,历时13年,终于在2003年完成。如今,面向个人消费者的全基因组测序服务仅需数小时,价格已降至100美元。这使得2007年仅为800万美元的全球基因测序市场有望在2021年达到350亿美元。这两个方向的进展为加速新药研发提供了基础。未来需要将蛋白质结构数据、基因图谱数据与AI分析的文献、临床档案等非结构化数据相结合,筛选化合物、发现药物靶点。观点。需要高精度科学计算算力与精度低但数据量大的AI推理训练算力相结合,才能真正缩短新药研发周期,降低药物研发成本。另一个例子是脑科学领域。对神经系统的研究除了其医学作用外,也是对大脑认知原理的探索,对类脑人工智能技术及相关设备的发展也具有指导意义。脑科学研究对传统超级计算系统提出的最直接挑战是海量数据。人脑中大约有1000亿个神经元。将神经元之间的所有映射存储为数据需要艾字节的容量(1艾字节等于100万太字节)。如此大规模的数据检索响应时间高达100小时。脑科学要想有所突破,还需要未来的超级计算来完成数据存储架构的突破。同样需要处理EB级数据的是当前火爆的自动驾驶行业。根据美国兰德公司的研究,如果一个自动驾驶算法想要达到人类驾驶员的水平,至少需要177亿公里的驾驶数据来改进算法。如果配置100辆自动驾驶测试车辆的车队,每天24小时进行道路测试,平均时速40公里,完成目标里程需要500多年。且不说距离达到人类水平还差得远,按照目前最为认可的SAE自动驾驶分级标准,需要经过2000万公里的道路测试才能达到L3级别,对应的数据量达到1-2EB.自动驾驶行业的另一个难点在于,不同的链路需要不同的数据协议。数据导入需要S3/NFS格式,数据预处理需要HDFS格式,AI训练需要NFS格式,然后进行仿真和模型验证……这样一来,数据转换和复制的时间来回比处理分析时间长,这就需要未来的数据密集型超级计算也要解决数据协议互通的问题。'从微观分子化合物、神经细胞到细观车辆、道路,再放大视角,研究宏观地球和宇宙也需要数据密集型超级计算。能源勘探、气象预报、卫星遥感、天文观测等数据存储规模也是几十到几百PB。根据各自特点,对超算传输速度、是否需要AI接口、数据管理等提出了不同的要求。如何构建数据密集型超级计算,以满足尽可能多的应用场景需求,成为一个关键问题。数据密集型超级计算应该如何建设?诚然,超级计算在基因测序、自动驾驶、脑科学等场景中展现出了巨大的潜力。各大国家都想抢先挖掘这块新土壤,这才造成了目前超级计算竞争日趋激烈的局面。面对这样的情况,我们如何才能抢占先机呢?中国计算机学会高性能计算专业委员会、国内高校、超算中心、华为联合编写的《数据密集型超算技术白皮书》给出了一些切实可行的建议。《白皮书》认为,要想赢得这场算力“军备竞赛”,应该从超算架构、网络传输、能源消耗等方面入手。采用异构融合的新型HPDA架构首先,超级计算要考虑的核心问题是计算能力的来源,这要从处理器芯片说起。如今的超级计算中心将CPU、GPU、FPGA等硬件结合起来,让不同的计算单元负责不同的计算任务,从而提高计算速度和处理能力。但是,随之而来的问题也会随之而来,就是资源、数据、应用的孤岛现象,造成重复建设和资源闲置,造成高能耗。因此,未来的超级计算中心将把原本“分散作战”的计算单元“统一”起来。让他们发挥各自的特长,快速完成任务,同时也能服从调度,最大限度地利用计算资源,完成尽可能多的不同任务。这就是《白皮书》中提到的——异构融合架构。具体来说,需要在三个层面实现统一:硬件上统一资源管理和数据存储;软件统一资源调度。打造存储与计算分离的统一数据存储基础数据密集型超级计算是以数据为中心的,因此除了计算单元之外,存储系统对超级计算的速度也有着巨大的影响。HPDA融合了高性能计算、大数据和人工智能,使其计算方式有别于传统的超级计算。以新材料的发现为例,传统的超算是通过HPC模拟计算来发现新材料,而HPDA则是通过机器学习来实现,涉及到AI模型的训练和推理。两者最大的区别在于AI计算非常依赖数据。在具体的工作过程中,会花费大量的计算时间来等待从存储系统中读取或写入数据。如果采用传统的超算存储系统,许多昂贵的计算节点将处于闲置状态,导致资源利用率不足。所以需要重新规划存储系统和计算系统。《白皮书》提出了存储计算分离的概念。即让所有计算节点共享一个存储,允许不同数据(文档、表格、图片等)之间互通互访。这样,当超级计算执行不同的任务时,计算节点只需要从这个庞大的存储库中找到需要的数据即可。在此基础上,还需要让数据按需自由流动,实现热数据、温数据、冷数据的智能分类。即高价值文件放置在高可用、高性能的存储设备上,低价值文件放置在性能、可用??性规格不高的低成本设备上。当然,必须达到合理的储蓄率。长期以来,我国超算中心建设一直存在着重算力、轻存储的问题。在我国,存储能力(存储容量PB)与计算能力(计算能力PFLOSPS)的比例为1:2,对应的投资比例为1:3。这两项数据,美国都达到了1:1。如果按照目前的超算中心建设模式,再过几年,我们将不可避免地经历存储短缺的危机。所以未来,我们还是有计划把重点放在存储容量上。推进全光多网融合和高速互联网建设随着处理的数据种类越来越多,需要很好地保证传输中的高带宽、高IOPS和低时延。同时,还要注意全周期的数据安全。事实上,超算中心能够进行快速的计算和推理,也离不开设备间的高速互联。要想取得更好的效果,需要从部件材料和传动技术两个方面入手。在材料方面,光子集成产品在尺寸、功耗、成本、可靠性等方面具有明显优势,是未来光器件的主流发展方向。因此,必须大力推进“光进铜退”,利用光子技术建设高速互联网络。从技术上讲,需要在超算中心整合多个网络。超算中心内往往存在计算网络、数据网络、存储网络、监控网络等多套网络,在建设、运维、功耗等方面的成本都很高。因此,如何将它们整合起来,降低成本,是未来数据密集型超级计算中心需要考虑的问题。采用低碳、高效、绿色、节能的工程技术最后,我们还需要考虑超级计算中心运行中的具体问题。比如能源消耗。随着芯片、系统、光器件等部件性能的不断提升,超级计算对能耗的需求与日俱增。例如在系统层面,目前100P系统的能耗约为20MW,单机柜能耗达到100KW,系统能效比约为几十GFlops/W。如果在节能方面没有革命性的新技术,未来E级及以上系统的这些指标将变得难以承受。对此,《白皮书》提出降低电力使用效率,提高设备能源利用效率。一方面是降低中心PUE。PUE值(PowerUsageEffectiveness,电源使用效率)是国际上流行的衡量数据中心电源使用效率的指标。PUE值越接近1,数据中心的绿色度越高。我国国家超级计算无锡中心建设之初的PUE值约为1.3,但今年的平均PUE值已降至1.22。两年间,减少用电量约700万度,节省电费400万元以上。另一方面是提高IT设备的能效。例如,使用SSD闪存驱动器。最常用的高性能SAS机械硬盘组成的存储系统典型功耗约为10.6W/TB。由SSD闪存盘构成的存储系统典型功耗仅为5.3W/TB左右,可降低能耗约50%。因此,数据密集型超算中心要求全闪存存储占比达到50%,将极大促进超算中心的绿色发展。打造好用的国产应用平台,支持环境生态如此高端的设备、先进的系统、强大的计算能力,你可能会觉得超级计算遥不可及。但实际上,超级计算的本质还需要解决更多的问题,不仅是在科学研究方面,在普通生活领域也是如此。在过去的5-6年里,高性能计算和AI在各个企业的应用已经不是什么新鲜事了。这要归功于软件容器化技术。只要容器化技术提前封装超算运行环境,实现应用与底层硬件的解耦,即使不懂专业计算机的普通企业用户也可以使用HPC。展望未来,构建良好的超算生态,需要让更多人参与到发展中来。需要针对行业共性问题大力发展,为用户提供简单易懂的可视化操作界面。同时,还要解决新架构带来的开发难问题。异构编程架构应该基于已有的经典并发模型,为用户提供方便快捷的程序并行和数据并行工具。此外,还要建设智能化管理运维平台,利用人工智能等技术,让IT设施越来越智能。以上是对《白皮书》中数据密集型超级计算技术建设标准的一些建议。《白皮书》的最后部分也对我国数据密集型超级计算的未来发展进行了展望。我国应尽快制定明确的发展目标和规划,出台相关指导意见,尽快制定数据密集型超级计算评价标准,大力推进产学研合作。现在我国超算发展正式进入爆发期。在今年的世界超级计算机500强榜单中,中国超级计算中心部署量位居世界首位。在数据密集型计算成为关键趋势、超算产业迎来新一轮爆发的今天,中国的超算产业是否已经走出了属于自己的道路?获取白皮书:https://e.huawei.com/cn/material/storage/1f2563c5282d44b3a8d26a97d14be65e