智能世界如何按照自己的规律发展的文章。正如HannahKerner不久前所说:“许多AI研究人员认为现实世界的问题无关紧要。社区过度关注新方法而忽视了真正重要的事情。”许多大型会议公然忽视应用这些论文侧重于使用当前技术解决现实世界的问题,其中许多也侧重于这样做所面临的挑战。该计划是空灵的,额外10%的目标检测准确度远比癌症死亡率降低1%更有价值。AI社区忽略了一个显而易见的事实:深度学习是一门实验科学。神经网络虽然有着清晰的脉络,但却是一个庞大的非线性系统,难以解释。神经网络仍然一如既往地神秘,尽管越来越多的研究致力于阐明它们。科学方法是我们理解神经网络的唯一可靠工具,因为它植根于实验。矛盾的是,虽然神经网络本质上是实验性的,但该领域拒绝纯粹的实验。一般来说,一篇神经网络论文首先介绍它的新颖性,然后尝试形式化证明,然后做消融研究,最后得出结论。这是实验得出的结论。想象一下,如果土木工程师决定创建不同寻常的桥梁设计,只是为了在桌子大小的乐高模型上进行测试。如果没有使用真实建筑材料进行昂贵的模拟或实验,您会相信新提出的设计吗?你会如此相信这些实验,以至于你会投资数百万美元来实现它们吗?你敢不敢,我不敢。简化的世界模型非常适合快速制作原型和尝试想法。但是为了实际验证,您需要在现实世界中进行尝试。这是一个两步过程。现代人工智能研究停留在上半场——基准测试、实际用例是下半场。ImageNet、COCO、CIFAR-10,这些都是人工智能的乐高积木。它们使我们能够试验新想法并剔除不良想法,它们是很好的工具。然而,它们只是达到目的的手段,而不是目的本身。这并不是说目前的研究是错误的,关键问题是学术界与现实世界之间的脱节。看看这张图:这张图展示了COCO目标检测基准的最新进展,其中每个点都是一个不同的模型——一种新技术或现有技术的融合,领先者以蓝色突出显示。COCOtest-dev排行榜上有代码的论文这张图显示了从2016年1月的28.8分到2020年7月的55.1分的轨迹。取得的进步是不可否认的,从图中可以看出,EfficientDetD7x是最好的对象检测技术在那里。但这里有一个问题要问您:您将在您的应用程序中使用哪种模型?您可能无法回答这个问题,因为您不知道我说的是哪个应用程序,也不知道它的要求是什么。是否需要实时运行?可以在手机上运行吗?它需要识别多少类?错误检测的用户有多宽容......根据答案,以上都不值得考虑,甚至EfficientDetD7x。如果模型必须在手机上实时运行,那么即使对这些模型进行微小的调整也不会执行。更糟糕的是,无法保证这些模型会在连续帧中产生一致的检测结果。我什至无法命名需要最高检测质量的应用程序,除了高精度之外别无他物。换句话说,研究界追求的指标仅用于研究本身。早在2015年,研究就发现将神经网络的深度增加到12层以上会影响性能。在著名的残差网络(ResNet)论文(https://arxiv.org/abs/1512.03385)中,何凯明博士和其他几位学者假设,通过跳过连接,连接非顺序层可以扩展容量,因为它可以提高梯度流。第一年,ResNet在ILSVRC、COCO等多个benchmark比赛中取得了优异的成绩。但是你现在应该已经意识到,这只是暗示ResNet是一个重要的贡献,而不是证据。ResNet在人工智能历史上的地位的决定性证据建立在其广泛的工作之上。ResNet的惊人之处在于它解决的不相关问题的数量,而不是它赢得的竞争。它真正的贡献在于这种跳过连接的思想,而不是架构本身。这篇关于FocalLoss的论文(https://arxiv.org/abs/1708.02002)也经受住了时间的考验,确实改进了其他人的研究。这篇关于Attention的论文(https://arxiv.org/abs/1706.03762)也遵循相同的路线。每天都有一篇新文章讨论Attention如何改进某些基准,以及aggregationloss如何让Attention变得更好。重要的不是比赛,而是后果。事实上,2012年ILSVRC冠军是AlexNet,2015年冠军是ResNet。你能说出2013年和2014年的获奖者吗?2016、2017、2018年的挑战是什么?你能确保每年都举办ILSVRC吗?您可能会问:为什么没有更好的基准或更有用的指标?我们如何衡量后果?可悲的是,我们不能。我们可以使用引用或下载计数、Reddit的浏览量或GitHub的星数。然而,这些指标存在缺陷。为了公平比较,我们需要在对方程的所有偏差进行归一化的同时考虑到每一个细节,这太难了。例如,为了比较Attention和ResNet的影响,我们需要考虑这些概念的正确使用,权衡它们的相对影响,对时间和影响范围进行归一化。显然,量化这些属性需要付出巨大的努力,而且可能与任何基准或指标一样存在缺陷。诸如期刊影响因子之类的想法甚至还没有触及这个问题的表面。有些目标无法量化。谁最有声望?西方音乐史上最具影响力的作曲家巴赫,还是最具影响力的剧作家莎士比亚?比较他们的作品没有意义,更不用说他们的领域了。巴赫还是莎士比亚,音乐还是戏剧?这是死路一条。我们可以衡量准确性,我们可以衡量速度,但我们无法判断影响。我们都同意我们需要更好的科学,但我们如何判断一门科学优于另一门科学呢?我们如何衡量研究与现实之间的脱节?我们希望与人工智能一起前进,但我们既不知道自己要去哪里,也不知道自己已经走了多远。这不仅仅是一个人工智能问题。我们想要更健康的政府、更好的医疗保健、更好的教育,但我们如何真正量化这些?到目前为止,最不成功(也是最普遍)的方法是替代指标,例如COCOAP的分数。我们无法衡量人工智能的进步,但我们可以衡量当前物体检测方法的准确性。物体检测也是人工智能的一部分,所以如果我们能在这方面取得一些进展,我们也可以期待人工智能的进步。在我们决定使用COCO之前,我们一直在使用ImageNet的前5个结果,因此面临一个更具挑战性的问题。我们不能通过训练检测模型来提高AP,但我们可以教它们减少边界框坐标的L2损失。损失是不可微量的替代。L2损失不是AP,但低L2损失与高AP相关,因此它有效。曾几何时,识字率是许多国家教育进步的主要衡量标准。几十年后,当识字率非常高时,较高的学业完成率是衡量教育进步的标准。然后是更高的大学入学率。我不知道学位和教育之间的关系是否像我们想象的那么紧密,或者高中教的是不是他们应该教的,但这是我们今天追求的指标。从某种意义上说,没有任何解决方案可以解决这些问题。因此,根据定义,所有路线都是错误的。只有尽可能多地尝试,才能选择相对正确的道路。在AI术语中,我们需要使用更大的批量提取和尽可能多的分布采样。这意味着我们必须将关注点从“准确性”和“速度”扩展到包括“鲁棒性”或“连贯性”之类的东西。最重要的是,我们需要从精心选择的基准转移到现实世界。以我对乳腺癌检测算法的研究为例,研究人员很容易将这个领域误认为是一个已解决的领域。最近的研究在该主题上取得了超人的成果,但这些算法无法应用于任何一家医院。原因很简单,不行。这听起来很夸张,但实际上非常简单:如果你在数据集A上训练算法,即使是同一件事,即乳房X线照片,该算法也无法在数据集B上运行。目前还没有已知的技术可以在数据集B上训练数据集,并且无需微调即可在其他数据集上很好地工作。您必须为每台机器/每家医院构建数据集才能获得有用的结果。指标合理,领域稳定。事实上,这甚至很难开始。最重要的是,算法无法帮助他们找到答案。把它想象成一个医生:你会告诉病人他们得了癌症,因为机器就是这样显示的吗?你不会,你会再看一遍图像。如果人们不信任人工智能,那么它就永远不会被使用。目前判断发表论文的主要标准是AUC分数。它告诉您该算法将乳房X线照片分类为良性和恶性的程度,但不会告诉您它对其他数据集的鲁棒性如何,或者所有数据集的可解释性如何。换句话说,它永远不会回答“它有效吗?”这个问题。发展人工智能没有正确的方法,但肯定有非常错误的方法。很快就会发现大部分文献是多么不适用,以及真正紧迫的问题是多么公然被忽视。正如我在开头所说,这篇文章并不是要指责现在的研究不好,而是要说问题的症结在于目前学术界和现实世界之间的脱节——我们对准确性的关注太狭隘了。人工智能的发展不仅仅是纸上谈兵,它对推动社会的发展真的很重要,我们希望通过提高人工智能来实现这一点。但只有面对现实的社会问题,我们才能正确地做到这一点。社会问题远比准确的物体检测复杂
