当前位置: 首页 > 科技观察

对象存储适合AI和机器学习的三个原因!_0

时间:2023-03-20 19:44:40 科技观察

【.comExpressTranslation】各类公司都在加速人工智能和机器学习项目,但要真正发挥其潜力,还有重大的技术障碍需要克服。虽然计算基础设施通常是重点,但存储同样重要。这三个主要原因说明了为什么对象存储(而不是文件存储或块存储)特别适合AI和机器学习工作负载:1.可扩展性——当有大量多样的数据源可供学习时,AI和机器学习机器学习有效最好的。数据科学家使用这些丰富的数据来训练领域模型。在“大数据的五个V”(数量、多样性、速度、准确性和价值)中,前两个(数量和多样性)是最重要的。简而言之,人工智能和机器学习依赖于大量多样化的数据(图像、文本、结构化和半结构化数据)来构建有用的模型、提供准确的结果并最终提供商业价值。对象存储是最具可扩展性的存储架构,特别适合支持人工智能和机器学习所需的海量数据。对象存储旨在通过横向扩展方法支持无限增长,使组织能够通过随时随地添加节点来扩展部署。由于对象存储使用单一的全局命名空间,这种扩展也可以同时在多个地方完成。另一方面,文件和块系统通常采用扩展方法。这意味着平台通过向单个节点添加更多计算资源来扩展,这种方法最终是有限的。他们无法通过部署额外的节点来增加计算资源来有效地横向扩展。2.API——强大而灵活的数据API对于人工智能和机器学习很重要,如前所述,它们使用多种类型的数据。存储平台需要支持API以容纳各种数据。此外,人工智能和机器学习的创新越来越多地在公共云上进行,但很大一部分人工智能和机器学习仍在本地或私有云中进行,具体取决于用例(例如,科学研究和医疗能力)医疗保健等领域的密集型工作负载往往最适合私有云)。这意味着企业需要支持公共云和本地/私有云中的工作负载的存储API。文件和块存储平台在它们支持的API方面受到限制,部分原因是它们是较旧的架构。相比之下,对象存储使用云的??更高级别API,该API旨在以应用程序为中心,支持比文件和块存储更广泛的API,包括版本控制、生命周期管理、加密、对象锁定和元数据。此外,支持AI和机器学习用例(例如支持流数据和查询海量数据集)的新对象存储API也是可能的。由于对象存储API围绕AmazonS3进行了标准化,因此更容易在本地和公共云中集成软件。企业可以轻松地将AI和ML部署从本地/私有云环境扩展到公共云,或者将云原生AI和ML工作负载迁移到本地环境,而不会丢失功能。这种双模式方法使企业能够以合作、可互换的方式利用本地/私有云和公共云的资源。由于S3API已成为对象存储的事实标准,许多软件工具和库都可以利用该API。这允许共享代码、软件和工具,促进人工智能/机器学习社区的更快开发。示例包括流行的机器学习平台,例如TensorFlow和ApacheSpark,它们具有内置的S3API。3.元数据——与API一样,使用人工智能和机器学习的企业利用无限的、可定制的元数据至关重要。元数据是关于数据的数据——在最基本的层面上,数据是何时、何地以及由谁创建的。但元数据可以描述更多:用户可以创建任意元数据标签来描述他们需要的任何属性。数据科学家需要丰富的元数据来查找特定数据以构建和使用AI和机器学习模型。随着更多信息被添加到数据中,元数据注释有助于增量知识积累。文件和块存储仅支持有限的元数据,例如上述基本属性。这在很大程度上归结为可扩展性,因为文件和块系统不足以支持快速和无缝的增长,如果存储系统支持依赖大量数据集的AI和机器学习应用程序的丰富元数据,那么这种增长自然会发生。情况。然而,对象存储支持无限的、完全可定制的元数据,使得从人工智能和机器学习算法中使用的数据中查找和获取更准确的信息变得更加容易。以医院使用X射线图像识别应用程序为例:有了元数据,TensorFlow模型可用于分析添加到对象存储系统的每个图像,然后为每个图像分配一个粒度元数据标签(例如例如,受伤类型、患者的年龄或性别(基于骨骼大小或生长情况)。然后TensorFlow模型可以根据这些元数据进行训练和分析,以获得有关患者的有价值的新信息(例如,与五年前相比,20多岁和30多岁的女性更容易患骨病)。几乎每一个《财富》的世界500强企业都在大张旗鼓地搞人工智能和机器学习,可以想象,在可预见的未来,这些技术将成为最重要的企业IT项目。但是,要使AI/ML项目获得回报,组织需要使用正确的存储基础架构。由于可扩展性、对各种API(尤其是S3)的支持以及丰富的元数据,对象存储可以说是人工智能和机器学习的最佳支柱。原标题:对象存储适用于AI和机器学习的3个原因,作者:GaryOgasawara