需求的扩大正在推动科技变革,科技创新进一步丰富了我们的生活。今天,大数据和云计算技术已经用尽了。然而,跨界竞争和技术融合迫使我们不断换血、补充能量以适应变化。那么在人工智能、虚拟现实、物联网等技术热潮之后,可以预测下一个技术热点高性能计算(HPC)是什么?面对技术和产业融合的现状,HPC应该更适合。另外,我也倾向于把HPC看成是一种和各个行业结合得比较紧密的技术。这里所说的HPC并不是简单的一堆计算、网络、存储、HPC软件等设备,而是更关注HPC的发展、主流玩家、技术趋势和HPC的未来。回顾历史,传统HPC仍然主要围绕模拟、物理化学、生命科学、渲染、探索和气象等六大场景,上层HPC集群的具体应用环境也相对固定。随着大数据、云计算和技术的发展以及产业的融合,各级HPC的分类也发生了一些变化。根据HPC应用的目标市场,可分为HPC商业市场和HPC科研市场。不过我个人觉得这个划分比较宽泛。业界按照传统HPC(主要是以上六大场景)、HPDA高性能数据分析、HPCAnywhere和HyperScale四大类,采用了很多且通俗易懂的划分方式。HPCAnywhere也实现了HPC和云的结合。例如,Panzura、Ctera、Avere、Nasumi等集群文件网关存储厂商提供高速本地分布式NAS系统,用于对接AWS、Azure等公有云对象存储。而一些低速NAS产品通过这些网关提供缓冲层,可以设置策略让数据在网关和其他存储之间流动,这样NAS或对象存储就可以直接连接到集群网关,甚至连接到公共云。HPC系统涉及存储、计算节点、网络、HPC软件、L1层制冷、机房、电源等复杂设备。但是,从技术角度来看,服务器和网络标准是比较统一的。除了某些方面差异较大外,其他方面基本保持在同一水平。但是标准不同,存储设备是最容易提升方案竞争力的。HPC存储是为解决传统串行存储在HPC应用环境下的性能瓶颈而提出的专用存储。HPC存储端的容量、性能和IOPS与HPC计算端的规模和性能弱相关。HPC存储主要关注性价比、低成本、占用空间;在典型的HPC应用场景中,常见的业务模型大致如下:在IOR测试工具中,IOPS实际上等同于OPS,而IOR工具在HPCBenchMark测试中的使用主要是IOR更适合带宽和OPS,并提供丰富的参数来模拟不同的业务IO模型。如果我们回顾一下HPC存储技术的发展史,不管用什么分类,几年前的HPC架构都是典型的3层架构,即计算节点内存、并行文件系统、存档存储。并行文件系统对HPC性能影响最大,某种意义上决定了pFS乃至整个HPC存储的性能。因此,对于超大规模的HPC集群,当上千个计算节点需要同时校验Point时,一般基于NL_SAS磁盘并行的文件系统有点弱,所以需要加一层pFS之上的高速和大容量(与内存相比)缓存。BurstBuffer技术和产品的出现改变了HPC的计算架构。活动存储就像数据热备份,它的出现为数据生命周期管理增加了更多选择。我个人认为BurstBuffer技术只是一个过度技术的技术。但是,如果提高Hybrid存储的系统性能,在目前SSD还是相当昂贵的情况下,BurstBuffer更能匹配超大型HPC场景的极致性能需求。当性能和容量与空间的比值在20MB/TB到200MB/TB之间时,BurstBuffer非常适合。通过简单的配置调整,基本不会出现容量或性能超配,SSD的价值可以得到充分发挥。如果没有Burstbuffer,所有性能层都需要pFS来承载,CheckingPoint的性能需要pFS来承载内存数据。BurstBuffer的另一个作用是在surgeIO模型下,BurstBuffer可以作为高性能层与pFS一起提供性能,可以对小IO进行Merge优化。目前DDN、Cray、EMC等已经支持,IBM也会很快支持。DDN、Cray、EMC的Burstbuffer方案可以参考我之前的文章WhyBurstBuffertechnologyissopopularinHPC。让我们来看看HPC行业的主要参与者,主要看服务器和存储。HPC行业服务器厂商的情况与整个服务器产品的市场份额基本一致。技术方面,服务器没什么好说的。增加内存、CPU、接口卡肯定会提升性能,通过高密度节点增加密度也很容易。HPC存储厂商主要分为三类,服务器厂商、传统存储厂商和专注于HPC行业的存储厂商。从这些厂商中我们可以看出,IBM虽然是服务器或者传统存储厂商,但是在GPFS的帮助下,其市场份额还是比较大的。随着Lustre放弃企业版给客户带来的不确定性,GPFS的市场份额将继续提升。上升。DDN目前实现了BurstBufferIME,在高性能、NVMeSSD、高密度等诸多场景中领先整个HPC行业。说到这里,我们简单了解一下DDN的BurstBufferIME产品。IME产品支持三种形式。IME240采用2U商用服务器。单品提供20GB带宽,48块NVMeSSD,支持800G和1.8TB。五台IME240,满配1.8TB硬盘,提供100GB带宽,300TB容量,容量利用率80%。IME14KX基于专用SFA14KX平台,基于4U设备,支持灵活配置NVMe磁盘。最大支持48块盘,满配时性能10GB/s到50GB/s。可扩展性与IME240一致。支持扩展到32个节点,性能达到1.6TB/s。IMESOFTWARE-ONLY是纯软件产品。可以灵活部署在现有硬件上。其实我个人认为在HPC系统的市场份额和项目分布上,超大规模和中小型应该各占一半。但在企业市场,中小客户一般都是集成商或代理商可以接触到的。而厂商能够直接接触或看准的往往是超大规模HPC市场。因此,制造商跟上HPC技术的步伐就显得尤为重要。我上面提到的已经有和即将有BurstBuffer的厂商都是引领HPC行业和技术的厂商,比如DDN和IBM。Panasas和Seagate是两家专注于HPC行业的专业存储厂商。从目前来看,他们并没有在BurstBuffer上下功夫,但在NL_SAS磁盘和HPC专有存储上一直在不懈努力。自从我开始使用HPC以来,Panasas技术就吸引了我。ActiveStor8、9、11、12采用数据控制分离,内置磁盘控制器,可最大限度发挥HDD磁盘的性能。遗憾的是,不知为何,Panasas已经淡出了我们的视线。至于希捷,它是结合密度和硬盘的完美例子。ClusterStor可以在5U空间内提供84个磁盘容量和16GB/s的性能。从最新的宣传来看,业绩翻了一番。他们虽然没有使用SSD,但是却成为了HPC可以充分发挥的典范。关于存储的发展,我们可以借鉴一个业界一直推崇的做法,那就是开源的重要性。从Linux、OpenStack、Ceph到Lustre、BeeGFS等,他们的成功说明开放的魅力是强大的,参与者越多,产品越稳定,客户也会认同。拥抱开源,根据自己的优势和理解进行定制,找到属于自己的路。DDN、Seagate和许多HPC解决方案提供商都以这种方式从中受益。回过头来看,HPC并行文件系统屈指可数。主流的有Lustre、GPFS、BeeGFS。当然,Glustre、Ceph、企业NAS也会出现在HPC中。Lustre并行文件系统用于超大规模(尤其是超算中心)、科教等对成本敏感的领域。说到这里,先简单说一下Lustre的架构。不管Lustre文件系统有多大,元数据和管理节点(MMU)基本是固定的。您只需要根据系统容量配置调整元数据存储(MGT&MDT)的容量即可。数据存储单元SSU是存储的基本单元,可以根据需要进行扩展。启用容量和性能扩展。GPFS在需要高系统稳定性的工业和其他对成本不敏感的应用程序中占有巨大份额。我个人认为IBMOEMout合作策略弥补了其闭源的不足。BeeGFS多采用服务器搭建文件系统,主要应用于欧洲科研、高校机构、中小型超算场景。展望未来,HPC的出路在哪里?请参考以往关于HPC技术趋势HPDA、深度学习、软件定义的文章,了解HPC趋势和发展。HPC和大数据结合是一个方向;HPDA已经比较好的结合了大数据和HPC。比如Lustre支持Hadoop,支持Hbase和Hive的部署。大数据目前应用广泛,跨界融合也很明显,比如智慧城市、海量视频分析,需要HPC与Hadoop对接,实现数据共享、计算资源共享;物联网传感器数据分析;和小文件场景,如机器学习、深度学习、基因分析、金融分析和能源分析Scratch层等。HPCAnywhere结合了HPC和云计算,云上的HPC实现了HPC资源即服务,HPC分布式的HyperScale互联网上的应用将为高性能计算带来无限商机。我们之前讨论的BurstBuffer,主打HDD和专业HPC存储,拥抱开源趋势,都是想在HPC行业发展的厂商可以借鉴的方案。当前迫切需要的是做好高性能计算产品的规划和布局,以迎接新时代的到来。
