【导读】说到人工智能(尤其是计算机视觉领域),大家都很关心这个领域的不断进步,但是人工智能发展到什么程度呢??AI已经是最好的了吗?Heuritech的CTOCharlesOllion希望通过他的文章,能够揭示一些目前的真实情况。下面就来看看作者讲了什么吧!作者根据Xkcd改编的漫画最近看了PeteWarden的一篇文章,描述了一个可以识别植物病害的分类器。在识别疾病类型时,分类器比人眼准确得多。然而,这个分类器在面对一张不包含植物的随机图片时会给出一个非常令人惊讶的错误结果(如下图所示:左图显示了分类器在检测真实植物上的疾病类型方面的良好效果;而右图,当指向计算机键盘时非植物的随机图像,分类器仍会认为它是损坏的作物)。但是,这种错误不会发生在人类身上。(来源:PeteWarden的博客-WhatImageClassifiersCanDoAboutUnknownObjects)上面的例子说明计算机视觉系统的能力与人类智能还是有差距的,我想通过一道试题进一步证明这一点:你你知道目前的人工智能系统最擅长什么吗?这里有五个不同的计算机视觉问题。给定输入和输出,尝试猜测计算机视觉系统最容易解决哪种问题?什么样的问题很难?1.检测糖尿病视网膜病变输入:受限视网膜图像输出:5类(不同阶段和形式的健康和疾病状态)糖尿病视网膜病变,糖尿病影响眼睛的并发症来源:https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html2。相机手势识别输入:相机捕捉到的一系列短视频输出:25个可能的动作*其中一个**(注:TwentyBN现在发布了更丰富的数据集)来源:TwentyBN来源:https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a13.识别Instagram图片中的手袋输入:Instagram上的图片输出:圈出图片中的手袋4.识别行人输入:固定相机拍摄的图像输出:圈出图片中的所有行人5.机器人抓取物体输入:两张由机器人拍摄的照片fixedcameraOutput:Robotcontrolstrategy左图是要抓取的物体,机器人上安装了固定摄像头,学习如何抓取物体来源:https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html但是事实呢?糖尿病视网膜病变:这种类型的识别器很容易实现,因为输入和输出是受限的(谷歌在他们的报告中表示它已经实现并且表现良好)。但在将该系统投入实际使用时遇到了困难。用户体验和系统与医生的配合是关键问题,因为对不同类型结果的判断可能会有偏差。CameraGestureRecognition:这个问题定义的比较好,但是可变性增加了它的难度:在相机拍摄的这些视频中,人的距离不同,手势持续时间不同等等......另外,在视频中数据是分析和训练,有很多工程问题。不得不说,这个问题非常难,但是已经解决了。RecognizinghandbagsinInstagramimages:这个问题看起来很容易解决,但是输入的图片没有约束,类别也很宽泛(手提包有很多形状,没有清晰的视觉图案,所以很难识别)可能被识别为许多其他对象)。这使得问题变得非常困难,如下图所示。手提包识别训练模型给出的识别结果我们的训练数据中没有“斧头”的图片作为反例,斧头的头部与模型学习到的手提包的图像非常相似。它是棕色的,手提包的形状和大小,拿在手里。然后我们就放弃了?不是的,我们可以通过主动学习来解决这个问题,即标记模型给出的错误判断,然后将这些错误的例子反馈给模型继续训练。但就目前的技术而言,想象Instagram中的图像尽可能开放仍然是一个巨大的挑战。我们人类很难在糖尿病上工作,但很容易区分斧头和手提包。主要是因为斧头对我们来说是一个极为普通的存在,是一个人尽皆知的常识,而这些都超出了系统录入数据的范围。在摄像头上识别行人:这类问题很简单:输入非常受限(静止摄像头),类别(行人)是标准的。可能存在对象被遮挡等相关问题,但总体来说这个问题很容易解决。但是,如果稍微改变一下问题,就会变得困难得多:如果相机在移动;或者从不同的方向、角度和范围拍摄——问题变得更加开放和棘手。机器人抓取物体:这个问题非常困难。它不在标准分类和回归问题的范围内,因为输出是控制机器人的策略,通常使用强化学习进行训练,强化学习不如监督学习成熟。此外,可能在语义理解的帮助下,物体的大小、形状和抓握方式也会有所不同。但是这个问题一个2岁的孩子就可以轻松解决(即使没有固定的摄像头和相同的背景),但是对于我们来说,人工智能要做到这一点还有很长的路要走。作者声明:如果您不同意我给出的答案,我很乐意讨论它们,因为这个领域有很多东西要学,我不认为我有所有的答案。对计算机视觉和人工智能的期望计算机视觉系统的“难度”概念与我们人类截然不同,这很容易导致我们对人工智能产生错误的期望。工程师和科研人员不得不从现实的角度来处理人工智能系统在开放域中的表现。目前,我们对人工智能系统发展的认识还存在很多问题。以自动驾驶为例:有约束的驾驶(如:高速公路)和无约束的驾驶(如:市区、小路……)是有巨大区别的。如今,大多数公司都根据无人驾驶的自动驾驶汽车行驶的里程数来衡量自动化水平。这也促使测试人员更愿意将汽车放在一个易于驾驶的环境中,但实际上我们应该做更多的工作来建立一些专注于扩大自动驾驶汽车正常行驶范围的指标。更一般地说,我认为我们应该停止说“计算机视觉就在这里”。如果我们有足够多的标记数据和约束类,问题的一小部分可能已经得到解决。但将全球常识性知识引入计算机视觉系统仍然是一项艰巨的挑战。ClevR,一个用于组合语言和初级视觉推理的诊断数据集。事实上,许多研究人员已经开始进行这方面的研究,一些研究领域正在蓬勃发展,例如:视觉推理、物理发现规则、Representationlearningviaunsupervised/self-supervised等。文末,AI技术大本营列出相关研究文章,供大家学习。由于本人比较了解计算机视觉的研发,以上是我对这方面的一些看法,但相信同样的道理也可以应用到其他机器学习问题上,尤其是NLP应用深度学习和机器学习研究领域。看完笔者的一些观点,欢迎大家在AI科技大本营后台留言,与大家分享你的看法~原文链接:https://medium.com/@CharlesOllion/whats-easy-hard-in-ai-computer-vision-these-days-e7679b9f7db7参考阅读:Adiagnosticdatasetforcompositionallanguageandelementaryvisualreasoninghttps://arxiv.org/abs/1612.06890DiscoveringCausalSignalsinImageshttp://openaccess.thecvf.com/content_cvpr_2017/papers/Lopez-Paz_Discovering_Causal_Signals_CVPR_2017_paper.pdf用于学习对象、关系和物理的交互网络http://papers.nips.cc/paper/6417-interaction-networks-for-learning-about-objects-relations-and-physicsIterativeVisualReasoningBeyondhttps:Convolutions//arxiv.org/abs/1803.11189通过解决拼图来无监督地学习视觉表征https://arxiv.org/pdf/1603.09246.pdf世界模型https://arxiv.org/pdf/1803.10122.pdf
