当前位置: 首页 > 科技观察

对象存储适用于AI和机器学习的三个原因

时间:2023-03-18 19:03:07 科技观察

如今,各种类型的企业都致力于采用AI和ML项目,但实现其真正潜力需要克服重大的技术障碍。虽然计算基础设施通常是重点,但存储设施同样重要。以下是对象存储(而不是文件或块存储)适合增强AI和机器学习工作负载的三个主要原因:1.可扩展性当有大量不同的数据源可供学习时,AI和机器学习学习技术起作用最好的。数据科学家使用这些丰富的数据来训练领域模型。在“大数据的五个V”(数量、类型、速度、准确性和价值)中,前两个(数量和类型)是最重要的。简而言之,AI和ML依赖于大量不同的数据(图像、文本、结构化和半结构化数据)来构建有用的模型,提供准确的结果,并最终提供商业价值。对象存储是一种可扩展性很强的存储架构,特别适合支持人工智能和机器学习所需的海量数据。对象存储旨在通过水平扩展方法实现无限增长,允许企业通过在需要的地方和需要的地方添加节点来扩展部署。由于对象存储使用单一的全局命名空间,这种扩展也可以同时跨多个地理位置完成。另一方面,文件和块系统通常采用缩放方法。这意味着这些平台通过向单个节点添加更多的计算资源来实现垂直扩展,这最终是有限的。它们无法通过部署额外的节点来增加计算资源来有效地横向扩展。2.API健壮灵活的数据API对于人工智能和机器学习来说非常重要,如上所述,它们使用多种数据类型。存储平台需要支持API来容纳各种数据。此外,AI和ML的创新越来越多地发生在公共云上,但是AI和ML的很大一部分仍然发生在本地数据中心或私有云中,具体取决于用例的具体情况(例如,诸如此类的领域因为科学研究和医疗保健通常最适合私有云)。这意味着组织需要一个支持公共云和本地/私有云中的工作负载的存储API。文件和块存储平台支持的API是有限的,部分原因是它们是较旧的架构。相比之下,对象存储使用了云平台固有的高层API,其设计以应用为中心,支持的API比文件和块存储更广泛,包括版本控制、生命周期管理、加密、对象锁定和元数据。此外,支持人工智能和机器学习用例(例如支持流数据和支持查询海量数据集)的新对象存储API也是可能的。围绕AmazonS3的对象存储API的标准化使得跨本地和公共云集成软件变得更加容易。企业可以轻松地将AI和ML部署从本地/私有云环境扩展到公共云,或者将云原生AI和ML工作负载迁移到本地环境,而不会丢失功能。这种双模式方法使组织能够协同和互换地利用本地/私有云和公共云资源。由于S3API已成为对象存储的事实标准,许多软件工具和库都可以利用该API。这允许共享代码、软件和工具,以促进人工智能和机器学习社区的更快发展。示例包括流行的机器学习平台,例如TensorFlow和ApacheSpark,它们具有内置的S3API。3.元数据与API一样,使用人工智能和机器学习的组织利用无限的、可定制的元数据至关重要。元数据只是关于数据的数据,在最基本的层面上,它是在何时何地创建的,以及由谁创建的。但元数据可以描述更多:用户可以创建任意元数据标签来描述他们想要的任何属性。数据科学家需要丰富的元数据来查找特定数据,以构建和使用他们的人工智能和机器学习模型。随着更多信息被添加到数据中,元数据注释逐渐构建知识。文件和块存储仅支持有限的元数据,例如上述基本属性。这在很大程度上归结为可扩展性,因为文件和块系统不具备快速无缝增长的能力,如果存储系统支持依赖海量数据集的人工智能和机器学习应用程序的丰富元数据,这是很自然的。然而,对象存储支持无限的、完全可定制的元数据,使查找数据并从数据中获得更好的洞察力以用于人工智能和机器学习算法变得更加容易。以医院在X射线图像上使用图像识别应用程序为例:使用元数据,可以使用TensorFlow模型分析添加到对象存储系统的每个图像,然后可以为每个图像分配一个更细粒度的元数据标签(例如、受伤类型、患者年龄或性别(基于骨骼大小或生长情况等)。TensorFlow模型可以根据元数据进行训练和分析,以获得新的患者见解(例如,如今20多岁和30多岁的女性比五年前患骨科疾病的人数更多)。几乎每家财富500强公司都在考虑采用人工智能和机器学习,可以想象,在可预见的未来,这些技术将成为最重要的企业IT计划。但是,要使AI和机器学习计划获得回报,组织必须利用正确的存储基础设施。由于其可扩展性、对各种API(尤其是S3)的支持以及丰富的元数据,对象存储是人工智能和机器学习的出色骨干。