当前位置: 首页 > 科技观察

适用于计算机视觉的九大开源数据集_0

时间:2023-03-20 22:10:13 科技观察

计算机视觉的前9个开源数据集令人兴奋的子领域之一。它是许多人工智能和机器学习管道的主要组成部分,这些管道正在改变各个行业,使组织能够彻底改变机器和业务系统的工作方式。从学术上讲,计算机视觉几十年来一直是计算机科学的一个成熟领域,多年来许多研究努力进入该领域以使其更加完善。然而,深度神经网络的使用最近彻底改变了该领域,并为其加速增长提供了新的动力。计算机视觉有各种应用领域,例如:自动驾驶。医学影像分析与诊断。场景检测和理解。自动生成图片说明。社交媒体上的照片/面部标记。家庭安全。制造和质量控制中的缺陷识别。本文将讨论深度学习领域中用于训练高级机器学习系统执行计算机视觉任务的一些最流行和最有效的数据集。如何选择合适的开源数据集来训练图像和视频文件的机器是一项非常复杂且数据密集的操作。单个图像文件是一个多维、数兆字节的数字实体,但在整个“智能图像分析”任务的上下文中仅包含一小部分“洞察力”。相比之下,类似大小的零售销售数据表可以在相同的计算硬件上提供更多关于机器学习算法的信息。在谈论现代计算机视觉管道所需的数据和计算规模时,需要牢记这一事实。因此,在几乎所有情况下,数百甚至数千张图像都不足以为计算机视觉任务训练高质量的机器学习模型。几乎所有现代计算机视觉系统都使用复杂的深度学习模型架构,如果没有提供足够数量的精心挑选的训练示例(即标记图像),这些架构将无法适应。因此,健壮的、可泛化的、生产质量的深度学习系统通常需要数百万张精心挑选的图像进行训练,这正在成为一种普遍趋势。此外,对于视频分析,考虑到从大量视频流中获得的视频文件或帧的动态特性,选择和编译训练数据集的任务可能会更加复杂。本文列出了一些最流行的图像(包括静止图像和视频剪辑)。用于计算机视觉模型的流行开源数据集并非所有数据集都同样适用于各种计算机视觉任务。这些常见任务包括:图像分类。物体检测。对象分割。多对象注释。图片说明。人体姿势估计。视频帧分析。下面将介绍涵盖大多数类别的流行开源数据集。1.ImageNet(最著名)ImageNet是一项正在进行的研究工作,旨在为世界各地的研究人员提供易于访问的图像数据库。它可能是世界上最著名的图像数据集,被研究人员和学习者引用为黄金标准。该项目的灵感来自图像和视觉研究领域日益增长的需求——对更多数据的需求。它是根据WordNet层次结构组织的。WordNet中每一个有意义的概念都可以用多个词或短语来描述,它的名字叫“同义词集”。WordNet中有超过100,000个同义词集。同样,ImageNet的目标是平均提供1000张图像来说明每个同义词集。ImageNet大规模视觉识别挑战赛(ILSVRC)是一项年度全球竞赛,旨在评估用于大规模对象检测和图像分类的算法(由大学或企业研究小组提交)。主要动机之一是让研究人员能够比较更广泛对象的检测进度——利用相当昂贵的标记工作。另一个动机是衡量计算机视觉在大规模图像索引检索和注释方面的进展。这是机器学习领域最受关注的年度竞赛之一。2.CIFAR-10(beginners)这是计算机视觉领域初学者常用的图像集,用于训练机器学习和计算机视觉算法。它也是机器学习研究中用于快速比较算法的最受欢迎的数据集之一,因为它可以捕捉特定架构的弱点和优势,而不会对训练和超参数调整过程施加不合理的计算负担。它包含10个不同类别的60,000张32×32像素彩色图像。这些类代表飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、轮船和卡车。3.MegaFaceandLFW(FaceRecognition)LabeledFacesintheWild(LFW)是一个人脸照片数据库,旨在研究无约束的人脸识别问题。它包含5,749个人的13,233张图像,这些图像是从网络上抓取和检测到的。作为一项额外的挑战,机器学习研究人员可以使用数据集中包含两张或更多不同照片的1,680人的照片。因此,它是人脸验证的公共基准,也称为配对匹配(需要至少两张同一个人的图像)。MegaFace是一个大规模的开源人脸识别训练数据集,是商业人脸识别问题最重要的基准之一。包括672057人的4753320张人脸,非常适合训练大规模的深度学习架构。所有图像均来自Flickr(雅虎的数据集)并在许可下共享。4.IMDB-Wiki(GenderandAgeRecognition)是最大的开源人脸图像数据集之一,带有用于训练的性别和年龄标签。该数据集中共有523,051张人脸图像,其中460,723张人脸图像来自IMDB的20,284名名人和来自维基百科的62,328张人脸图像。5.MSCoco(objectdetectionandsegmentation)CommonObjectsinCONtext(COCO)是一个大规模的对象检测、分割和字幕数据集。该数据集包含91种易于识别的对象类型的照片,在328,000张图像中共有250万个标记实例。此外,它还为更复杂的计算机视觉任务提供资源,例如多对象标记、分割掩码注释、图像字幕和关键点检测。它得到了一个直观的API的良好支持,该API有助于在COCO中加载、解析和可视化注释。API支持多种注解格式。6.MPIIHumanPose(PoseEstimation)该数据集用于评估人体关节姿势估计。它包括大约25,000张图像,其中包含超过40,000个带有身体关节的带注释的人物形象。在这里,每张图像都是从YouTube视频中提取的,并提供未注释帧之前和之后的图像。总体而言,该数据集涵盖了410种人类活动,每张图像都带有一个活动标签。7.Flickr-30k(ImageCaptioning)这是一个图像字幕语料库,由158,915个众包字幕组成,描述了31,783张图像。这是之前Flickr8k数据集的扩展。新的图形和字幕专注于日常活动和事件中涉及的角色。82.0BN-SOMETHING-SOMETHING(人类行为的视频片段)这个数据集是大量密集标记的视频片段,显示人类对日常物体执行预定义的基本操作。它由成群的工人创建,允许机器学习模型对物理世界中发生的基本动作进行细粒度的理解。以下是此数据集中捕获的常见人类活动的子集:9.BarkleyDeepDrive(用于自动驾驶汽车训练)加州大学伯克利分校的BerkeleyDeepDrive数据集包含超过100,000个带有各种注释的视频序列,包括对象边界框、可驾驶区域、图像-水平标记、车道标记和全帧实例分割。此外,该数据集在表示各种地理、环境和天气条件方面具有广泛的多样性。这对于为自动驾驶汽车训练强大的模型很有用,这样自动驾驶系统就不会因不断变化的道路和驾驶条件而感到困惑。数据集的正确硬件和基准是不言而喻的,仅仅拥有这些数据集不足以构建高质量的机器学习系统或业务解决方案。需要正确选择数据集、训练硬件以及巧妙的调整和基准测试策略,才能为任何学术或商业问题获得最佳解决方案。这就是为什么高性能GPU几乎总是与这些数据集配对以提供所需性能的原因。GPU的开发(主要是为了满足视频游戏行业的需求)是为了使用数千个微处理器进行大规模并行计算。它们还具有较大的内存带宽来处理快速数据流(处理单元缓存到较慢的主内存并返回),这在神经网络经过大量训练时需要更多的计算。这使它们成为处理计算机视觉任务计算负载的理想硬件。不过,市面上可供选择的GPU有很多,市场上已经有一些不错的基准策略可以在这方面引导潜在用户。一个好的基准必须考虑多种类型,例如深度神经网络(DNN)架构、GPU和广泛使用的数据集。例如,一篇优秀的文章考虑了以下内容:架构:ResNet-152、ResNet-101、ResNet-50和ResNet-18。GPU:EVGARTX2080ti、技嘉RTX2080ti和NVIDIATITANRTX。数据集:ImageNet、CIFAR-100和CIFAR-10。此外,必须考虑多个性能维度以获得良好的基准。GPU性能维度主要考虑三个指标:(1)Secondbatchtime:完成第二批训练的时间。这个数字衡量GPU运行多长时间足以提升以前的性能。不考虑GPU的热节流。(2)Averagebatchprocessingtime:ImageNet中1个epoch或CIFAR中15个epoch后的平均批处理时间。考虑了GPU的热节流。(3)同时平均批处理时间:ImageNet中1个epoch或CIFAR中15个epoch后的平均批处理时间,所有GPU同时运行。这测量所有GPU发出的热量,导致系统中的热节流。哪些开源数据集最适合计算机视觉模型?本文讨论了获得高质量、无噪声、大规模数据集以训练复杂深度神经网络(DNN)模型的必要性,这些模型在计算机视觉应用中越来越受欢迎。还给出了几个开源数据集的例子,这些数据集广泛用于各种类型的计算机视觉任务——图像分类、姿态估计、图像描述、自动驾驶、对象分割等。最后,还讨论了将这些数据集与适当的硬件和基准测试策略配对以确保它们在商业和研发中的最佳使用的必要性。原标题:OpenSourceDatasetsforComputerVision,作者:KevinVu