当前位置: 首页 > 科技观察

从高性能计算(HPC)技术的演进分析解决方案、生态和行业发展趋势

时间:2023-03-13 02:42:52 科技观察

现在大数据和云计算技术的发展已经走到了尽头。然而,跨界竞争和技术融合迫使我们不断换血、补充能量以适应变化。在人工智能、虚拟现实、物联网等技术热潮之后,下一个可以预见的技术热点会是什么,高性能计算(HPC)?是的,HPC应该是一个完美的选择。回顾历史,传统HPC主要围绕模拟、物理化学、生命科学、渲染、探索和气象六大场景,上层HPC集群软件、生态和解决方案还比较固定。按照HPC应用的目标市场,可以分为HPC商业市场和HPC科研市场。但随着大数据、云计算等技术与产业融合发展,综合技术与产业趋势,HPC产业的划分方式也发生了变化。目前主要分为传统HPC(主要是以上六大场景)、HPDA高性能数据分析、HPCAnywhere和HyperScale四大类。其中,HPC与云的结合是在HPCAnywhere中实现的,如Panzura、Ctera、Avere、Nasumi等集群文件网关存储厂商,他们提供高速的本地分布式NAS系统,用于对接AWS等公共服务器而AzureCloud对象存储和一些低速NAS产品通过这些网关提供缓冲层,可以设置策略允许数据在网关和其他存储之间流动。通过NAS或Objectstorage,直连集群网关,甚至公有云和数据流转。随着闪存技术的成熟,HPC传统的3层技术架构(即计算节点内存、并行文件系统和归档存储)也发生了变化。在HPC系统中,并行文件系统(pFS)对HPC性能影响最大,某种意义上决定了整个HPC存储性能。传统的HPC架构无法应对超大规模HPC集群计算节点的并发CheckingPoint需求,因此需要增加一层高速大容量(相对于Memory)Cache(BurstBuffer))在pFS之上。我个人认为BurstBuffer技术可能是一个过于技术化的产品,类似于提升系统性能的Hybrid存储。不过在目前SSD还是比较贵的情况下,BurstBuffer可以很好的匹配超大型HPC场景的最大性能需求。.BurstBuffer在性能和容量空间比在20MB/TB到200MB/TB之间可以说是非常适合的(BurstBuffer提供的SSD承载了80%以上的性能,容量由传统存储HDD提供),通过简单的配置调整,不仅不会出现容量或性能过度分配的情况,还能发挥SSD的价值。回顾HPC并行文件系统,起初主流的有Lustre、GPFS、BeeGFS。当然,Glustre、Ceph、enterpriseNAS也会出现在HPC中,但还不是主流。在HPC行业,有一个实践一直被业界推崇可以借鉴,那就是重视开源生态和发展。从Linux、OpenStack、Ceph到Lustre、BeeGFS等,他们的成功说明开放的魅力是强大的,参与者越多,产品越稳定,客户越认同。拥抱开源,根据自己的优势和理解进行定制,找到属于自己的路。DDN、希捷和许多HPC解决方案提供商通过开源和合作的方式占据了主要的HPC市场份额。说到HPC,就免不了要谈NAS或者pFS,那么HPC为什么非要有pFS呢?由于计算软件需要在计算节点之间共享配置数据,需要多个并发访问,计算的临时文件、中间文件和结果文件需要集中处理。在计算集群形成初期,系统中没有复杂的存储系统,也没有统一存储的概念。那个时候每个计算节点把自己计算的数据临时写到自己的本地硬盘(Cache),最后所有的数据都被master节点回收,到master节点挂载的比较大的空间(其实就是这个就是后来HPC存储的雏形),然后进行后续处理(分析、分享、可视化、备份恢复)。本地存储引入的问题:计算任务在计算集群中被划分为若干个子任务。在计算过程中,某个计算节点的输入数据可能存储在另一个节点上,这就引入了问题。1、每个节点的数据都会进出本地硬盘两次,节点之间的数据传输也会造成冗余的网络风暴。这种做法无疑会造成计算效率的下降;2、在编写应用代码的过程中,无法预知所需的数据在哪个节点上,会造成麻烦,效率低下。所以在后续的程序编写中,所有的节点都会认可一个区域,所有的临时数据和最终的数据都会写在这里,也就是一个统一的命名空间,因为所有的计算节点都可以看到同一个名字的数据存储区域计算节点在计算节点的操作系统中显示为同名目录。HPC应用软件,如Paradigm、3DsMax等,在配置计算模型的存储指针时,会发现需要指向同一个区域,即统一的存储空间,很多软件无法修改该参数的设置。一个计算节点的中间数据可以存储在它自己的内部存储器中。如果使用SAN存储,必须使用SAN共享软件(如StoreNext)保证数据读写的一致性。DDN是BurstBuffer上最有活力的HPC解决方案提供商,但BurstBuffer尚未一统天下(未来全闪存可能称霸HPC世界)。Panasas和Seagate是两家专注于HPC行业的专业存储厂商。他们并没有在BurstBuffer上下功夫,而是一直在NL_SAS磁盘和HPC专有存储上不懈努力。自从我开始使用HPC以来,Panasas技术就吸引了我。ActiveStor8、9、11、12采用数据控制分离,内置磁盘控制器,可最大限度发挥HDD磁盘的性能。遗憾的是,不知为何,近年来Panasas逐渐淡出了我们的视线。至于希捷,它是结合密度和硬盘的完美例子。ClusterStor可以在5U空间内提供84个磁盘容量和16GB/s的性能。从宣传上看,业绩翻了一番。他们虽然没有使用SSD,但是却成为了HPC可以充分发挥的典范。面对未来高性能、高带宽的应用和服务,对网络有哪些要求?目前主流的是100GEEthernet、Omni-Path和InfiniBand。从市场的角度来看,希望M??ellanox的InfiniBand和Intel的Omni-Path技术都能找到合适的市场空间发展,发挥各自的优势。希望Intel收购Qlogic的InfiniBand业务后,再开发一种基于TrueScaleFabric的技术。开辟一条新路是正确的选择。衡量HPC系统功能的基准是什么?Top500和Green500的排名是衡量HPC系统状态的重要指标。中国“神威-太湖之光”超级计算机(无锡)和“天河二号”超级计算机系统(广州)连续多年位居世界500强榜首。尽管他们的表现非常出色,但他们的Green500排名还有很大的提升空间。迎接未来HPDA、云化、HPCHyperScale的趋势,只有兼顾计算性能和绿色节能,才能更好地掌握HPC在云计算和大数据下的主动权和话语权。关于HPC系统能力的BenchMark排名,除了TOP500、Green500、HPCG之外,还有Graph500排名和GreenGraph500排名。GreenGraph500使用与Green500相同的性能指标,但它是基于每瓦性能,即使用Green500测试模型测试但与Top500(HPL)使用每瓦性能排序。随着时间的推移,应用程序对更复杂计算的需求变得越来越普遍。TOP500创始人认为,Top500榜单使用的Linpack基准性能已经过时。大家也意识到单看CPU性能的弊端,开始用HPCG(TheHighPerformanceConjugateGradients)性能来综合衡量超算性能。内容很丰富,但文章篇幅有限,分析内容到此结束。今天,对HPC行业趋势、产品和技术的分析也整理成一本《高性能计算(HPC)技术、解决方案和行业综合分析》电子书。材料。