当前位置: 首页 > 科技观察

MIT和IBM联合推出新的数据集,“为计算机视觉的黄金时代做准备”

时间:2023-03-17 18:44:27 科技观察

在人工智能领域的图像分类方面,训练和测试最常用的数据集是ImageNet,它是也是全球最大的“简历练习库”。最近,麻省理工学院和IBM研究人员组成的团队创建了一个不同的图像识别数据集ObjectNet,它难倒了世界上最好的计算机视觉模型。需要提醒的是,这里最好或者最强并不是指某个模型,而是一类高性能的视觉模型。在ImageNet测试中达到97%准确率的计算机视觉模型在ObjectNet数据集上下降到50%-55%的检测准确率。测试结果如此“惨烈”的主要原因在于,目前几乎所有的视觉模型在物体旋转、背景变换、视角切换等复杂情况下的识别过程都缺乏稳定性。麻省理工学院计算机科学与人工智能实验室(CSAIL)和大脑、思想与机器中心(CBMM)的研究科学家AndreiBarbu是该研究的通讯作者和该项目的联合主任。他在接受DeepTech专访时说,“我们需要一个数据集,它可以典型地代表你在现实生活中看到的东西。没有这个,谁有信心去做计算机视觉?我们怎么能说计算机视觉提供了Are你准备好迎接黄金时代和安全关键型应用了吗?”AndreiBarbu还表示,ObjectNet可以与全世界的研究人员共享,“只要联系我们,我们就会发给你。”(网址:https://objectnet.dev/)图|ImageNet(来源:ImageNet)人工智能使用由神经元层组成的神经网络在大量原始数据中寻找模式。例如,它在看过数百张椅子图片后学会了椅子的形状。斯坦福大学每年都会举办一场比赛,邀请谷歌、微软、百度等IT公司使用ImageNet来测试他们系统的运行情况。一年一度的大赛也牵动着各大巨头企业的心弦。ImageNet由世界顶级计算机视觉专家李飞飞创立。她在一次演讲中提到,要让冰冷的机器理解照片背后的故事,需要像婴儿一样让机器看到足够多的“训练图像”。ImageNet从Flickr和其他社交媒体网站下载了近10亿张图片,2009年ImageNet项目诞生,该数据库包含近1500万张照片,涵盖22,000个项目。计算机视觉模型已经学会以如此精确的方式识别照片中的物体,以至于在某些数据集上,有些模型的表现优于人类。图|ImageNet的创造者之一李飞飞(来源:维基百科)然而,当这些模型真正进入生活时,它们的性能会大幅下降,这给自动驾驶汽车和其他使用计算机视觉的关键系统带来了安全性。隐患。因为即使有上百张照片,也没有办法完整展现现实生活中物体的方位和位置。椅子可以倒在地上,T恤可以挂在树枝上,云朵可以倒映在车身上……这时候识别模型就会产生疑惑。人工智能公司Vicarious的联合创始人DileepGeorge曾表示:“这表明我们在ImageNet上花费了大量资源来过度拟合。”过度拟合是指将特定数据集过于紧密或精确地匹配的结果,以致于无法拟合其他数据或预测未来的观察结果。与ImageNet随机收集的照片不同,ObjectNet上提供的照片具有特殊的背景和角度。研究人员要求自由职业者拍摄数百件随机放置的家具物品的照片,并告诉他们这些物品是从什么角度拍摄的以及它们在厨房中的放置位置。、浴室或客厅。因此,数据集中物品的拍摄角度非常奇怪,床上的椅子横着,卫生间的茶壶扣倒扣,客厅的椅背上挂着T恤…….图|ImageNet(左栏)经常显示典型的背景对象,很少旋转,也很少有其他视角。典型的ObjectNet对象从多个视点映射到不同的背景上。前三列显示了椅子的三个属性:旋转、背景和透视。可以看出,由于这些操作,给数据集引入了大量的变化。由于纵横比不一致,该图仅略微裁剪了ObjectNet图像。大多数检测器无法识别ObjectNet中包含的大部分图像(来源:论文)“我们创建这个数据集是为了向人们展示物体识别问题仍然是一个难题。”“我们需要更好、更智能的算法。Katz和他的同事将在正在进行的NeurIPS会议上展示他们的成果,这是人工智能和机器学习领域的顶级国际会议。图|ObjectNet研究团队。这项研究由马萨诸塞州国家科学基金会赞助,由大脑、思想和机器技术中心、麻省理工学院-IBM沃森人工智能实验室、丰田研究院和SystemsThatLearn@CSAIL计划资助(来源:ObjectNet)有也是ObjectNet和传统图像数据集的一个重要区别:它不包含任何训练图像。也就是练习题和考题重叠的几率变小了,机器就很难“作弊”了。大多数数据集都分为训练集和测试集,但训练集通常与测试集相同,它们之间存在细微的相似之处,实际上让模型在测试中抢先一步。乍一看,拥有1500万张图像的ImageNet似乎非常庞大。但是当去掉训练集部分后,它的大小和ObjectNet差不多,差不多有50,000张照片。“如果我们想知道这些算法在现实世界中的表现如何,我们应该在他们从未见过的无偏见图像上测试它们,”AndreiBarbu说。图|Amazon的“土耳其机器人”AmazonMechanicalTurk(MTurk)是一个众包网络市场,它使计算机程序员能够调用人类智能来执行计算机尚不能胜任的任务。研究人员表示,ImageNet和ObjectNet都通过这些平台来标记图片(来源:AmazonMechanicalTurk),结果表明机器仍然难以理解物体是三维的,而且物体也可以旋转并移动到新的环境中。“这些概念并未内置于现代物体检测器中。”架构,”该研究的合著者、IBM研究员DanGutfreund说。该模型在ObjectNet上的测试结果如此“惨”并不是因为数据量不足,而是因为该模型不适合诸如此类的事情旋转、背景变换、视角切换等都缺乏稳定性,研究人员是如何得出这个结论的呢?他们在一半的ObjectNet数据上训练模型,然后在另一半上进行测试。在同一数据集上进行训练和测试通常会提高性能,但这一次,模型的改进幅度很小,这表明模型没有完全理解物体在现实世界中的存在方式。因此,研究人员争辩说,即使设计包含更多视角和方向的更大版本的ObjectNet也不一定会教会AI理解物体的存在。ObjectNet的目标是激励研究人员提出下一波革命性技术,就像最初的ImageNet挑战一样。下一步,他们将继续探索为什么人类在图像识别任务中具有良好的泛化能力和鲁棒性,并希望该数据集能够成为测试图像识别模型泛化能力的评估方法。“人们将大量数据输入这些物体检测器,但回报却在递减,”卡茨说。“你无法捕捉到物体的每个角度和每个可能的环境。我们希望这个新数据集能够在现实世界中产生一个不会意外失败的强大计算机视觉系统。”图片|AndreiBarbu是一位研究科学家麻省理工学院,专注于语言、视觉和机器人技术,但也涉猎神经科学。(来源:麻省理工学院)以下是不改变原意的访谈实录):DeepTech:这个想法是什么时候产生的,目的是什么?现在可以下载使用了吗?AndreiBarbu:ObjectNet是大约4年前提出来的。因为即使尽管像ImageNet这样的许多数据集有95+%的准确率,但现实世界的表现可能比你预期的要差得多。这个想法是直接将其他学科的良好实验设计引入机器学习中,比如phy科学和心理学。我们需要一个通常可以代表您在现实生活中看到的内容的数据集。没有这个,谁有信心去做计算机视觉?我们怎么能说计算机视觉已经为黄金时代和安全关键型应用做好了准备?ObjectNet已经可用,请联系我们,我们会将其发送给您。DeepTech:收集实际数据需要多长时间?数据的有效性如何?AndreiBarbu:我们花了大约3年的时间来弄清楚如何去做,又花了大约1年的时间来收集数据。现在我们可以更快地收集另一个版本,时间跨度为几个月。我们在RobotTurk上收集了大约100,000张图像,我们保存了大约一半。许多照片是在美国境外拍摄的,因此,某些物体可能看起来很陌生。成熟的橙子是绿色的,香蕉有不同的大小,衣服有不同的形状和质地。DeepTech:它的成本是多少?在收集资料的过程中遇到了哪些问题?AndreiBarbu:在学术界,成本很复杂。人力成本高于机器人土耳其人的成本,仅机器人土耳其人的成本就相当可观。收集这些数据有很多问题。这个过程很复杂,因为它需要在不同的手机上运行;说明很复杂,我们花了一段时间才真正理解如何稳定地解释任务;数据校验也很复杂,小问题几乎层出不穷。我们需要大量的实验来学习如何有效地做到这一点。DeepTech:ObjectNet和ImageNet有什么区别和联系?AndreiBarbu:与ImageNet的区别在于:1.我们收集图像的方式可以控制偏差。我们告诉人们如何旋转一个物体,把它放在什么样的背景中,以及以什么角度拍照。在大多数数据集中,关于图像背景的信息会导致机器无意识的“欺骗”。他们将依靠对厨房背景的了解来预测某物可能是平底锅。2.这些照片不是从社交媒体上收集的,所以不是那种让人不想分享的好看的照片。我们还确保收集来自印度、美国和不同社会经济阶层的图像。我们也有损坏或破损物体的图像。3.没有训练集。这在10年前不是什么大问题,但我们的方法在发现模式方面非常强大,其他人无法做到,因此我们需要进行这些更改,以避免简单地调整我们的模型以适应来自同一数据集的数据。训练集和测试集之间的偏差。DeepTech:没有训练集有什么影响?AndreiBarbu:由于没有训练集,所有的方法都需要泛化。他们需要在数据集上进行训练并在ObjectNet上进行测试。这意味着它们不太可能利用偏差,而更有可能成为强大的物体检测器。我们想说服每个人,至少在机器学习的既定领域,收集训练集的小组应该与收集测试集的小组分开。随着我们已经成为一个数据驱动的研究领域,我们需要改变我们收集数据的方式来推进科学。DeepTech:3D对象非常复杂,我认为很难表示。例如,如何表示旋转的椅子?AndreiBarbu:我不认为3D很复杂。显然你我都对物体的三维形状有一定的了解,因为我们可以从新的角度想象物体。我认为这也是计算机视觉的未来,而ObjectNet在设计时就考虑到了这一点。它不关心你建立模型的基准,真正重要的是它为你提供了一个更可靠的工具来检查你的模型是否足够强大。DeepTech:您接下来的研究计划是什么?AndreiBarbu:我们正在使用ObjectNet来理解人类视觉。人类在大规模物体识别方面做的不多,还有很多空白有待填补。我们将向在RobotTurk上进行过简短演示的数千人展示ObjectNet,让人们了解人类图像处理的各个阶段。这也将有助于回答一些我们目前不太了解的关于人类视觉和物体检测器之间关系的基本问题,例如,物体检测器的行为是否像人类只能很快看到一个物体一样?我们的初步结果表明情况并非如此,这些差异可用于构建更好的检测器。我们还在研究下一个版本的ObjectNet,我认为这对检测器来说会更加困难:具有部分遮挡的ObjectNet。对象将被其他对象部分覆盖。我们和许多其他研究小组有理由怀疑被遮挡物体的检测不够稳健,但需要一个严肃的基准来刺激下一波进步。