▲桌上的到底是井盖还是蜻蜓?(摄影:DanHendrycks)▲照片里的是绿鬣蜥,还是松鼠?(摄影:DanHendrycks)▲这是独轮车还是只会过马路的鳄鱼?(图片来源:DanHendrycks)对人类来说,答案是显而易见的。然而,目前世界上最强大的图像识别人工智能还未能解决上述问题。之所以如此,是因为每张照片都经过精挑细选,专门用来“忽悠”图像识别技术。这些照片来自由加州大学伯克利分校、华盛顿大学和芝加哥大学的研究人员编制的包含7,000张照片的专门数据集。“目前的(机器学习)模型并不完美,”DanHendrycks博士说。一些真实数据(来自真实照片)经常会出现严重且高度一致的误判。为了解释这个问题的意义,我们首先回顾一下图像识别技术的发展。在过去的几年中,图像识别工具变得更好更快,这在很大程度上要归功于ImageNet,这是一个由斯坦福大学创建的开放数据集,其规模仍在不断扩大。该数据集现在包含超过1400万张照片,每张照片都带有“树”和“天空”等标签。这个庞大的数据库已经成为人工智能训练资料的重要集合,也可以作为新的人工智能系统的参考基准,用于训练系统进行图像识别。例如,它就像一本供孩子学习新单词的图画书。目前,使用ImageNet训练出来的人工智能具有非常高的准确率,其物体识别准确率可以达到95%%,这个水平在区分图像内容方面已经优于人类。然而,解决这最后5%的准确率差距是一个巨大的挑战。2017年以来,计算机在识别图像精度方面相对薄弱。因为通过这种方式,研究人员试图探究原因——即为什么计算机无法解析某些图像。有了这个新的图像集,研究人员手动搜索了Flickr(雅虎的照片共享网站),寻找可能会使AI软件陷入混乱的照片。然后他们测试了在ImageNet数据集上训练的AI模型,如果模型没有识别出照片的内容,他们将其添加到一个名为ImageNet-A的新数据集(很明显,这个名字代表的意思是反ImageNet).在识别这7000张照片时,AI的准确率迅速从90%下降到2%。是的,你没看错,世界上最先进的视觉AI模型并不能正确识别这些照片中的98%。至于为什么人工智能系统无法理解这些图像,这是一个相当复杂的问题。现在的AI训练基本上是把大量的数据扔进一个“黑盒子”——换句话说,我们只能根据最终的结果来判断它的准确性。例如,如果“黑匣子”已经看到足够多的树木图像,它就会开始识别新照片中的树木对象,我们认为训练成功(这种重复性任务称为机器学习)。但问题是,我们不知道AI依靠哪些指标来识别树木——是形状吗?颜色?背景?质地?或者这棵树是否具有人类从未意识到的统一的核心几何风格?对于这个问题,目前的科学家们也无法回答。总而言之,AI能力的判断是靠结果来实现的,而不是靠推理过程。这意味着我们可能会在人工智能中发现意想不到的偏差,而这进一步影响了人工智能系统在无人驾驶汽车或刑事司法领域的实际应用。别的不说,这也意味着图像识别系统并不是真正的智能化,而更像是一个强大的匹配工具。ImageNet-A数据集是为了“欺骗”AI而建立的,以此来总结为什么这些图像让系统无法找到正确答案。例如,当AI将一张松鼠图片误认为是海狮时,其深度智能和推理能力的不足就会直接暴露出来。该系统可能仅依靠这些动物的质地——而不是物体的相对大小或形状——来进行识别。亨德里克斯说:“那些需要根据物体形状做出正确判断的照片,似乎最有可能骗过AI模型。”使用ImageNet-A,研究人员成功地从视觉AI中发现了7,000个盲点。然而,这是否意味着可以将这些图像构造成一个新的训练集来解决AI模型的这个大问题呢?答案可能是否定的。Hendrycks指出,“由于现实世界中的多样性和复杂性因素,用这些图像进行训练可能无法教会模型如何真正可靠地管理全方位的视觉输入信息。比方说,也许收集并标记1万亿个图像足以解决一些模型盲点,但当出现新的场景或环境发生变化时,过去修复过的盲点可能会再次暴露出来。”换句话说,简单地向机器学习数据集中添加更多照片并不能解决AI问题。该模型逻辑的核心缺陷是,总会有计算机从未见过的图像。那么研究人员如何解决这最后5%的准确率差距呢?Hendrycks解释说,他们将需要开发现代机器学习范围之外的新方法,以创建更复杂的人工智能系统。而在达到这个目标之前,人类还可以继续保持微弱的优越感——截至目前,AI在某些方面仍然比不上人类。
