深度学习可以非常强大,但它也可能会犯其他人永远不会犯的令人惊讶的错误。当计算机视觉开始起飞时,人们发现基于深度学习的图像分类器有些反复无常。例如,图像分类器可能会正确识别一张校车图片,但当它包含少量噪声(经过精心选择以混淆算法)时,它可能会将其误认为是鸵鸟。深度学习有时也可以看到根本不存在的东西。一组研究人员设计了一种生成图像的方法,即使图像实际上仅由波浪线或其他抽象图案组成,计算机视觉算法也可以非常自信地将它们分类为熟悉的物体。当计算机视觉应用于现实世界时,也会出现此类问题。通过在交通标志上放置小色块,可以诱使计算机视觉算法将停车标志误认为是限速标志。这个问题不仅限于计算机视觉。亚马逊在他们用于评估求职者的实验性计算机程序——EUR?简历中注意到了这一点。在开发团队注意到该程序没有根据描述Candidates?实际工作经验的文字做出决定后,该实验被关闭。相反,男性工程师倾向于比女性更频繁地使用不相关的词。从本质上讲,该程序学会了预测候选人的性别,而不是是否适合这份工作。出现这种偏见是因为该系统过去曾根据提交给公司的简历进行过培训,并且男性比女性更经常地申请和被聘为工程职位。为什么计算机会犯愚蠢的错误?当大致相同的复制品被误认为是鸵鸟时,如何正确分类校车图像?深度学习模型是复杂的数学黑匣子。他们的决策逻辑通常很难处理。人脑也很复杂,但没有理由认为两个复杂的事物会有相似的世界观。也许不足为奇的是,人类和机器对两幅图像相似的原因有着截然不同的看法。(?)人类和人工智能看待世界的方式截然不同。当人类看到鸵鸟的图像时,他们会认出它,将其与鸵鸟的概念联系起来,并回忆起相关的事实:一种生活在非洲等地的长脖子的快速奔跑的不会飞的鸟。另一方面,人工智能手,甚至不知道鸵鸟指的是一种动物(或者,实际上,动物是什么)。对于AI而言,鸵鸟只是像素(在计算机视觉应用程序中)或文本字符(在自然语言处理应用程序中)的统计模式。AI应用程序缺乏大多数成年人共享的常识性知识。从统计模式的角度思考对人类来说是非常不直观的。即使是AI应用程序的开发人员也常常难以理解系统学习了哪些模式。更糟糕的是,统计模型可能会学到与开发人员预期完全不同的模式。统计方法采取捷径并学习训练数据中出现的最简单的模式。如果大多数标有北极熊的图像都包含雪和冰,则该模型可能会错误地认为北极熊意味着白色背景。有办法训练更好的模型来缓解这个问题,但没有完整的解决方案。从概念上讲,最简单的解决方案是收集更多的训练数据。然而,覆盖所有极端情况需要不切实际的大训练集。自动驾驶汽车的训练数据只能包含汽车在现实交通中可能遇到的一小部分情况。一种相关的方法是通过裁剪、旋转或增强具有低噪声水平的图像来综合扩展训练集,以生成训练样本的略微修改的副本。这是一种向模型指示人类仍然将图像视为同一对象的程度的方式。发现以这种方式训练的模型的预测更可靠,更符合人类的感知。如果预测模型能够注意到他们被混淆了,问题就会得到缓解。例如,功率的一个原因可能是输入与模型在训练期间看到的任何东西都非常不同。一个活跃的研究方向是弄清楚如何让算法来衡量他们自己的信心。最终的解决方案是将人类常识性知识纳入预测模型。贝叶斯建模提供了合并先验知识的原则性方法。然而,在复杂问题中,很难以所需概率分布的形式表达?的知识。对AI开发的影响如上所述,AI系统在大多数情况下运行良好,但偶尔也会出人意料地出错。这对人工智能系统的发展有影响。首先,开发人员需要为意外预测做好心理准备。他们需要评估潜在错误的风险,并为用户提供适当的恢复方法。彻底的测试可以在某种程度上确保系统按预期运行。但是,测试永远不可能涵盖所有情况。即使是一个罕见的输入导致了一个奇怪的预测,用户迟早会偶然发现它。因此,人工智能系统应该被设计成在出现意外预测时优雅地退化。应用程序的性质及其在自动化连续体中的位置也会影响特定预测的影响。在某些应用程序中,AI只是提供始终由人类审查的建议。GmailAutoComplete就是此类应用程序的一个例子,偶尔一个奇怪的建议可能会引起笑声,但很少会造成严重后果。另一方面,如果期望AI系统能够自主做出决策,那么它的设计应该具有足够的错误率。此外,应该让用户控制检查和回溯决策。最后,一个人不能总是回避奇怪的结果!意想不到的结果可以成为创造力的摇篮。AIDungeon是一个开放文本冒险故事生成器。它的吸引力主要基于它产生部分连贯句子的能力。同时,它追踪故事完整背景的能力有限,往往会导致幻想的、任何事情都有可能发生的故事情节。
