当前位置: 首页 > 科技观察

人工智能存储平台如何满足机器学习和数据分析的需求

时间:2023-03-17 20:35:01 科技观察

根据机器学习和人工智能任务的执行方式以及数据在其环境中的收集方式,组织需要了解他们应该购买哪些人工智能存储产品。在购买AI存储平台时,组织可以遵循多种途径。但一个重要的目标应该是找到一种产品,使其能够更有效地收集数据以执行机器学习和人工智能任务。评估和选择AI数据存储产品涉及的一些关键问题包括:存储平台必须提供高性能和可扩展性,同时有效地管理成本。它的性能必须包括提供高吞吐量和实现低延迟。生成良好的AI模型意味着处理PB级数据,这可能会导致高昂的成本。组织必须了解管理机器学习和人工智能平台的总体成本。在深度学习中,机器学习算法可以不受监督地运行,I/O配置文件会导致高度随机访问,因为深度学习算法的连续层会处理多个级别的数据分析。机器学习和AI训练通常以批处理模式运行,数据科学家创建机器学习AI模型,根据数据对其进行测试,并随着时间的推移改进模型。这种方法需要低延迟以确保快速执行,因为更短的模型测试时间意味着更多的迭代和更好的模型。因此,一个组织选择具体的存储产品应该根据其所从事的工作类型以及所需要的机器学习和人工智能培训。无论哪种情况,在获得存储产品的性价比方面都存在一些折衷。分层方法成本和性能是购买任何存储产品时的关键考虑因素。如果可以选择,大多数组织将购买最快的存储设备。然而,要获得更高的性能需要付出更大的代价。通常,高性能系统不会扩展到PB级。再加上任何时候分析的工作数据集都是整个数据资产的一个子集的假设,很容易看出存储分层是为机器学习和人工智能设计数据存储的必要部分。在机器学习和人工智能的背景下,分层到底意味着什么?传统的分层产品已经从固定的存储池发展为复杂的系统,这些系统根据使用频率和可用池容量优化单个存储块的放置。但由于数据的处理方式,这种方法不太适合机器学习和人工智能。自动分层产品假定数据经历对业务很重要的生命周期。新数据非常重要,会被频繁访问。随着数据随着时间的推移变得不那么有价值,可以将其转移到成本更低、性能更低的生产存储中。用于机器学习和人工智能分析的数据使不同的整个数据集处于活动状态并可供分析,同时要求整个数据集随时可用。这意味着使用中的数据必须驻留在性能一致的存储层上,因为访问的任何变化都会影响模型训练等问题。机器学习和AI模型开发中数据处理的随机性意味着尝试随时间动态重新平衡数据的反应式存储平台算法将行不通。这些算法假设一个小的和相对静态的工作集,随着时间的推移逐渐变化。在机器学习和人工智能中,数据访问配置文件将更加随机,因此很难预测要缓存哪些数据以及如何调整缓存大小或更快的存储层。两层存储模型为机器学习和人工智能工作负载提供存储的一种简单方法是简单地使用两层模型。性能层以尽可能低的延迟提供尽可能多的性能,同时针对系统预期处理的最大数据集进行调整。高性能闪存价格昂贵,随着市场转向三级和四级单元等大容量闪存产品,出现了高性能存储产品的新市场,包括三星Z-NAND等低延迟闪存产品和东芝XL闪存。这些产品补充了通过提供低延迟I/O开发的存储级内存。例如,VastData同时使用四级单元和IntelOptane技术提供对N-structure和S3API的支持,为非结构化数据提供高性能、可扩展的存储产品。这些第0层存储产品使用NVMe设备在存储网络内或跨存储网络进行连接。与传统的SAS和SATA存储设备相比,NVMe优化了I/O堆栈或I/O协议。结果是更低的延迟和更高的吞吐量,但平台利用率显着提高,因为服务器处理器不必等待I/O完成。PureStorage的AIRI、IBMSpectrumStorageforAI和NetApp的全闪存FASA800等产品都在内部使用NVMe以实现最大的媒体性能。DellEMC和DataDirectNetworks在其产品线中使用横向扩展文件系统产品来支持机器学习和人工智能参考架构。容量层需要长期安全地存储所有AI模型数据,通常是数月或数年。因此,具有高耐用性的可扩展存储平台对于管理机器学习和人工智能所需的大量数据至关重要。对象存储市场已经发展到产生一系列高度可扩展和耐用的AI存储产品。究竟什么是耐用性?在典型的存储系统中,数据使用一种架构来保护数据,该架构将冗余构建到存储在硬盘驱动器上的数据中。如果单个组件发生故障,则使用额外的数据副本从丢失的数据中恢复并在更换故障组件后重建数据。尽管RAID5和更高版本提供了针对硬盘驱动器故障的保护,但仍然需要其他系统来防止大规模灾难,例如数据中心中断。随着传统系统规模的扩大,数据丢失的持久性或缓解代价高昂。擦除编码在数据中建立冗余,这样硬盘驱动器、服务器甚至整个数据中心的中断或故障都不会导致数据丢失。纠删码数据的分散特性意味着可以构建存储系统以通过本地和地理数据保护来扩展数PB的数据,而无需管理多个系统的开销和成本。对象存储为必须长期(通常为多年)保留的数据提供可扩展性和持久性。然而,出于成本优势,对象存储产品构建在具有一些缓存功能的廉价硬盘存储之上。这使得它们不太适合机器学习和人工智能数据的日常处理,但非常适合长期保存。地理上分散的对象存储库还支持从多个位置和来源提取和访问数据。这可能很有价值,例如,如果数据处理混合使用本地和公共云基础设施。地理分散是ScalityRing平台的一个特性,它与HPE和WekaIO产品集成以创建一个两层存储架构。混合存储架构企业面临的挑战是如何实施包含高度可扩展和高性能存储的混合架构。对象存储系统使组织能够存储大部分数据,而一些产品使用性能节点,这些节点将活动数据存储在具有高性能闪存的服务器上。这种方法的优点是可以将容量或性能节点添加到产品中以向任何方向扩展。例如,Cloudian为硬件设备提供了扩展能力。从高性能存储构建的系统必须设计为可扩展到正在处理的整个数据集。在这些场景中,随着时间的推移处理多个AI数据集,并且数据在高性能平台之间来回移动。存储架构必须能够为AI产品提供数据进出存储所需的网络带宽,满足AI平台的要求。NvidiaDGX-1和DGX-2平台等产品每秒可消耗数十GB的数据。因此,为了跟上发展的步伐,人工智能数据存储产品中计算与存储的连接必须是低延迟的InfiniBand或100Gb以太网。用于AI产品的软件定义存储为机器学习和AI构建存储并不一定意味着部署更高性能的设备。新的高性能AI存储产品面世,本质上是软件定义存储(SDS)。这些产品利用了新媒体的功能,包括NVMe,在某些情况下还包括持久内存或存储级内存。软件定义存储(SDS)产品的优势之一是适用于公有云,因为它们可以在公有云基础设施中实例化和动态扩展。当基础设施的数量未知或仅在短时间内需要时,这种操作模式可能很有吸引力。WekaIO提供了一个基于Matrix软件的横向扩展存储平台,可以部署在带有NVMe驱动器的服务器上或带有支持NVMe的弹性计算云实例的AWS公共云中。ExceleroNVMesh是另一种软件定义存储(SDS)产品,可跨多个服务器和存储线性扩展性能,通常与IBMCorp.的SpectrumScale结合创建横向扩展文件系统。数据移动性将容量层和性能层组合到单个产品中需要手动或自动流程在性能层和容量层之间移动数据,并在数据移动时在元数据之间成功跟踪数据。一些AI存储产品可以直接与对象存储集成,简化了这个过程。公共云可以成为机器学习和人工智能开发的一个很好的选择,因为在内部云服务之间移动的数据不收取存储费用。例如,WekaIO的Matrix在内部和外部复制数据并将其归档到对象存储。想要为机器学习和人工智能工作负载实施本地存储的企业必须考虑容量和性能。对于性能层,他们可以从头开始构建,也可以为机器学习的融合基础架构部署打包产品。通过构建选项,组织可以部署本地设备或使用软件定义存储(SDS)。软件定义存储(SDS)使组织能够将存储实施为单独的层,或构建超融合基础架构。如果数据将保留在本地,组织可以使用设备或遵循软件定义的路由使用对象存储来部署容量层。迁移到公有云后,IT组织可以使用对象存储和块存储等原生服务。文件存储产品要实现机器学习和人工智能应用的低延迟还有很长的路要走。相反,组织可能会使用块存储,尤其是当与软件定义存储(SDS)或AI存储产品结合使用时,这些产品将文件服务层添加到本地块资源。