亚马逊最近为Facebook的PyTorch机器学习框架推出了名为S3Plugin的数据集库,旨在帮助数据科学家访问存储在AWSS3中的数据(AmazonWebServicesDatasetsinSimpleStorage服务)。它专为低延迟而设计,亚马逊表示S3插件提供了为任何大小的数据集流式传输数据的能力,无需提供本地存储容量。PyTorch是一个基于Torch库的开源机器学习库,用于计算机视觉和自然语言处理等应用,主要由Facebook的AIResearchLab开发。它是根据修改后的BSD许可证发布的免费开源软件,底层是用C++实现的。许多深度学习软件都建立在PyTorch之上,包括特斯拉的自动驾驶汽车、优步的Pyro和HuggingFace的Transformers等。PyTorch主要提供两个高级功能:张量计算(如NumPy)、通过图形处理单元(GPU)的强大加速、基于类型的自动微分系统构建的深度神经网络自2016年10月发布以来,PyTorch实现了快速增长科学和开发人员社区。2019年平台贡献者人数近1200人,同比增长超过50%。据研究机构分析,2019年各大人工智能会议的大部分论文都是用PyTorch实现的。2019年上半年,论文中对PyTorch的引用增加了194%以上。亚马逊在博文中写道:“借助PyTorch深度学习容器中的这一特性,用户可以使用PyTorch数据集和数据加载器API直接使用S3中的数据,而无需先将数据下载到本地存储中。”由PyTorch开发的S3插件提供了从AmazonS3到PyTorch的消费数据的原生体验,而不会增加代码的复杂性。“S3Plugin的优点包括:PyTorch支持两种不同类型的数据集,S3PluginforPyTorch可以根据您的需要灵活使用;S3Plugin可以使用各种格式的训练数据来训练机器学习模型。它与文件格式无关并将AmazonS3上的对象呈现为blob,并且可以对从AmazonS3接收的输入执行其他转换;S3插件提供了一种使用ShuffleDataset来随机播放内存中数据的方法,或者在扩展的S3IterableDataset中通过提供输入参数shuffle_urls来随机播放内存中的数据;PyTorch的S3Plugin提供了一种从S3并行传输数据的方法,同时也支持来自存档文件的数据流。亚马逊表示,由于该插件是PyTorch的内部接口,因此无需修改现有代码即可与S3一起使用。PluginforPyTorch提高了PyTorch的易用性和灵活性,感兴趣的开发者可以通过预配置的PyTorchDocker镜像来使用它。或者使用it直接来自GitHub仓库。本文转自OSCHINA文章标题:亚马逊推出高性能PyTorch数据集库-S3Plugin本文地址:https://www.oschina.net/news/159532/amazon-releases-s3-plugin-for-火炬
