当前位置: 首页 > 科技观察

5优秀的计算机视觉应用和相关数据集

时间:2023-03-16 20:04:33 科技观察

介绍计算机视觉是数据科学界最热门的研究领域之一。而且,它已经成为我们个人生活的一部分。我们都知道或不知道在后端运行计算机视觉技术的各种功能。例如,我们在智能手机中使用面部解锁。下图有效地说明了人脸检测的工作原理。我选择人脸检测作为这篇文章的开头,因为我们都看到了这是计算机视觉的一个应用。但计算机视觉远不止于此。在本文中,您将探索计算机视觉的更多有趣应用。目录什么是计算机视觉?使用计算机视觉的姿势估计使用Gans计算机视觉的图像转换开发社交距离工具将2D图像转换为3D模型医学图像分析什么是计算机视觉?在进入计算机视觉应用领域之前,首先,让我们了解什么是计算机视觉?简而言之,计算机视觉是人工智能的一个多学科分支,旨在复制人类视觉的力量。如果正式定义,“计算机视觉是一种实用程序,用于根据感知图像对实际物理对象和场景做出有用的决策”(Sockman&Shapiro,2001年)、对象跟踪、光学字符识别、图像字幕和其他视觉识别技术发挥作用。我知道这些是很多技术术语,但理解它们并不难。只要看看下面的图片,您就会理解其中的许多术语。让我们从第一张图片开始。如果我问你图中是什么?你的回答是,它是一只猫。这其实就是对图片进行分类。这意味着基于图像分类来标记图像。这里的类别是“猫”。现在你知道图像的类别了。下一个问题是物体在图像中的位置。当我们确定一个对象在框架中的位置并在其周围创建一个边界框时,这称为定位。在第二张图片中,我们找到了物体并将其标记为猫。下一项是物体检测。前两种情况,图像中只有一个物体,但如果有多个物体怎么办。在这里,我们通过边界框确定现有实例及其位置。在对象检测中,我们使用正方形或矩形的边界框,但它不会告诉任何有关对象形状的信息。实例分割在每个对象周围创建一个像素级掩码。因此,实例分割可以更深入地理解图像。深度学习方法的最新发展和技术的进步极大地增强了视觉识别系统的能力。因此,计算机视觉已被公司迅速采用。在整个工业领域都可以看到成功的计算机视觉用例,扩大了应用范围并增加了对计算机视觉工具的需求。现在,让我们来看看5个令人兴奋的计算机视觉应用。使用计算机视觉进行姿态估计姿态估计是计算机视觉的一个有趣应用。你一定听说过Posenet,它是一个用于人体姿势估计的开源模型。简而言之,姿态估计是一种计算机视觉技术,可以推断图像/视频中存在的人或物体的姿态。在讨论姿态估计的工作之前,让我们先来了解一下“人体姿态骨架”。它是一组定义人的姿势的坐标。一对坐标称为肢体。此外,通过识别、定位和跟踪图像或视频中人体姿势骨骼的关键点来执行姿势估计。以下是人体姿态估计的一些应用-实时运动分析或监视系统的活动识别。增强现实体验训练机器人动画和游戏如果你想自己开发一个姿势估计模型,这里有一些可能的数据集:MPIIhttp://human-pose.mpi-inf.mpg.de/COCOkeypointchallengehttps://cocodataset.org/#downloadHUMANEVAhttp://humaneva.is.tue.mpg.de/使用GansFace应用程序的图像转换是一个非常有趣和流行的应用程序。它是一种图像处理工具,可以使用过滤器转换输入图像。过滤器可能包括老化或最近的性别交换过滤器。看看上图,有意思吗?几个月前,这是互联网上的热门话题。人们在交换性别后分享照片。但是这些应用程序背后的技术是什么?是的,你猜对了,它是计算机视觉,更具体地说,它是一个深度卷积生成对抗网络。生成对抗网络,通常称为GAN,是计算机视觉领域的一项激动人心的创新。虽然GAN是一个古老的概念,但目前的形式是由IanGoodfello于2014年提出的。从那时起,它有了很多发展。GAN的训练涉及两个相互竞争的神经网络,根据给定训练数据的分布生成新数据。虽然GAN最初是作为一种无监督学习机制提出的,但它已证明自己是监督和半监督学习的理想选择。这里有一些数据集可以帮助您获得GANsCelebA的实践经验http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html闪烁人脸数据集https://github.com/NVlabs/ffhq-datasetCartoonsethttps://google.github.io/cartoonset/有很多应用程序使用Gans生成的图像。以下是它的一些应用风格转换和照片修复中的图像到图像的翻译图像超分辨率文本到图像的生成图像编辑语义图像到照片的翻译如果你发现任何更有趣的东西,请在评论中告诉我。开发社交距离工具的计算机视觉在过去的几个月里,世界一直在从COVID-19大流行中解脱出来。发现在没有针对该疾病的疫苗之前,我们都必须采取预防措施,使用洗手液、口罩,最重要的是保持社交距离。在这种危急情况下,计算机视觉技术可以发挥至关重要的作用。它可用于跟踪房屋或特定区域中的人,以查看他们是否遵守社交距离规范。SocialDistancingTool是一款用于对象检测和实时跟踪的应用程序。在这种情况下,为了检查社交距离违规情况,我们使用边界框来检测视频中出现的每个人。稍后,我们跟踪帧中每个框的运动并计算它们之间的距离。如果它检测到任何违反社会距离规范的行为,这些边界框将被突出显示。此外,为了使这些工具更加先进和准确,您可以使用迁移学习技术。还存在各种预训练对象检测模型,如YOLO或MaskR-CNN。将2D图像转换为3D模型这是计算机视觉的另一个非常有趣的应用。它将二维图像转换为3D模型。例如,假设您有一张来自旧收藏的照片,并且能够将其转换为3D模型并进行检查,就好像它就在那里一样。DeepMind的研究人员提出了一个可以在类似系统上运行的人工智能系统。它被称为生成查询网络,它可以像人类一样从不同角度感知图像。此外,Nvidia还开发了一种AI架构,可以预测图像的3D属性。同样,FacebookAI提供了一个类似的工具,称为3D照片功能。以下是一些相关的数据集,您可以使用IKEA数据集http://ikea.csail.mit.edu/Opensurface数据集http://opensurfaces.cs.cornell.edu/NYUDepth数据集https://cs进行实验。nyu.edu/~silberman/datasets/nyu_depth_v2.htmlObjectNet3Dhttps://cvgl.stanford.edu/projects/objectnet3d/应用程序现在,您必须考虑这项技术的用例。以下是它的应用动画和游戏机器人自动驾驶汽车医学诊断和外科手术中的计算机视觉医疗保健:医学图像分析长期以来,计算机支持的医学图像一直用于诊断,例如CT扫描、X射线等..此外,计算机视觉技术的最新发展使医生能够更好地理解图像,并通过将图像转换为三维交互模型使其更易于解读。如果我们看一下计算机视觉的最新用例,就会发现它正在使用胸部X光来检测COVID-19病例。此外,根据武汉市放射科的一项研究,深度学习方法可以有效区分Covid-19和社区获得性肺炎。查看Kaggle提供的COVID-19胸部X光数据集,并自己尝试实施。COVID-19胸部X射线数据集:https://www.kaggle.com/bachrr/covid-chest-xray同时,如果你想在另一个数据集上工作,那么你还可以在Kaggle上获取CT医学图像(https://www.kaggle.com/kmader/siim-medical-images)。尾注总而言之,计算机视觉是人工智能的一个迷人领域。在这篇文章中,我讨论了一些我觉得很有趣的事情。但这只是冰山一角。