当前位置: 首页 > 科技观察

计算机视觉项目:10个高质量开源数据集发布

时间:2023-03-20 14:25:55 科技观察

计算机视觉几乎在行业的每一个领域都在加速发展。在计算机视觉技术的帮助下,组织正在彻底改变机器过去的工作方式。全球的大型科技公司现在正在医疗保健和自动驾驶等领域利用计算机视觉。为了构建强大的计算机视觉深度学习模型,必须在训练阶段应用高质量的数据集。在本文中,我们将列出10个可用于计算机视觉项目的高质量数据集。1|CIFAR-10CIFAR-10是由AlexKrizhevsky、VinodNair和GeoffreyHinton收集的流行计算机视觉数据集。该数据集用于物体识别,由10个类别的60,000张32×32彩色图像组成,每个类别有6,000张图像。它分为五个训练批次和一个测试批次,每个批次有10,000张图像,即有50,000张训练图像和10,000张测试图像。2|CityscapesCityscapes是来自计算机视觉项目的开源大型数据集,其中包含在50个不同城市的街景中记录的各种立体视频序列。它包括5,000帧的高质量像素级注释,以及更大的20,000帧弱注释帧集合。该数据集主要用于训练深度神经网络和评估视觉算法在语义城市场景理解这一主要任务上的性能。3|FashionMNISTFashion-MNIST是一个用于计算机视觉的图像数据集,包含一个包含60,000个示例的训练集和一个包含10,000个示例的测试集。在此数据集中,每个示例都是与10个类别的标签相关联的28×28灰度图像。有一个基于Scikit-learn的自动化基准测试系统,涵盖129个具有不同参数的分类器。4|ImageNetImageNet是计算机视觉项目最流行的数据集之一,它提供了一个根据WordNet层次结构组织的可访问图像数据库。WordNet中有超过100,000个同义词集,其中ImageNet平均提供1,000张图像来说明WordNet中的每个同义词集。它为WordNet层次结构中的大多数概念提供了数千万个分类清晰的图像。5|IMDB-Wiki数据集IMDB-Wiki数据集是使用性别和年龄标签训练的最大的开放式人脸图像数据集之一。该数据集中共有523,051张人脸图像,其中460,723张人脸图像来自IMDB的20,284名名人和来自维基百科的62,328张。6|Kinetics-700Kinetics-700是YouTube视频URL的大规模高质量数据集,其中包括各种以人为中心的动作。该数据集包括约650,000个视频片段,涵盖700个人类动作类,每个动作类至少包含600个视频片段。在这里,每个剪辑持续约10秒,并标有类别。7|COCO或MSCocoCOContext中的CommonObjects是一个大规模的对象检测、分割和字幕数据集。该数据集包含91种易于识别的对象类型的照片,并且在328k图像中共有250万个标记实例。8|MPII人体姿势数据集MPII人体姿势数据集用于评估铰接式人体姿势估计。该数据集包含大约25K张图像,其中包含超过40,000个人以及带注释的人体关节。在这里,每张图片都是从YouTube视频中提取的,在帧前带有和注释。总的来说,数据集涵盖了410种人类活动,每张图片都标有活动。9|OpenImages这个OpenImages数据集是最大的现有数据集之一,带有对象位置注释。它由大约900万张带有图像级标签、对象边界框、对象分割掩码和视觉关系的图像组成。该数据集包含190万张图像上600个对象类别的1600万个边界框。10|The20BN-something-somethingDatasetV220BN-Something-Something数据集是大量密集标记的视频剪辑集合,显示了人类对日常物体执行的预定义基本动作。它由大量人群工作者创建,允许ML模型对物理世界中发生的基本运动有更细粒度的理解。视频总数包括220,847个,其中168,913个是训练集,24,777个是验证集,27,157个是测试集。ModelPlay是面向全球开发者的AI模型资源平台,内置多样化AI模型,结合TitaniumAIX(集计算机视觉和智能语音交互两大核心功能于一体的人工智能硬件),基于谷歌开源神经网络网络架构和算法,构建自主迁移学习功能,无需编写代码,通过选择图片、定义模型和类别名称即可完成AI模型训练。