阅读理解是我们早期学年学习的技能。这项技能使我们能够理解我们阅读的内容的含义。它也被认为对AI系统很重要,因为当他们可以理解用户的含义或意图时,他们可以更好地与用户互动。例如,如果搜索引擎可以理解用户查询的含义,则可以提供更多简洁和更好的答案。搜索引擎通常通过显示根据其认为重要性排名的网站列表来回答查询。但是,除非完全理解用户的预期含义,否则这些列表通常包含许多无关紧要的参考。访问具有其预期含义的精确信息对于成功的系统至关重要。阅读理解系统还有许多其他用途,例如使用聊天机器人,虚拟代理以及自动驾驶汽车中的路标。
阅读理解是一项技能,使我们能够理解我们阅读的东西的含义
当前使用中有一些中等成功的AI阅读理解应用程序。在本文中,我简要介绍了它们的工作方式并描述了使用的一些基准测试 - 其中一些声称性能水平超过了人类能力。许多人质疑这些主张以来,由于当前的AI系统仍然缺乏语义理解。
人工智能与人类理解之间的鸿沟
阅读理解对人工智能系统的能力提出了巨大的挑战,因为它们体现了人类与人工智能之间的鸿沟:缺乏理解。这种无法像人类一样理解的人工智能系统的这种差异是有些人说是不可撤销的,因为机器永远不会像人类一样理解语义和人类意图。但是,尽管AI系统可能确实不像人类那样理解语言的含义,但这并不排除它们模拟达到某些理解水平的任务。例如,假设我说我的朋友可以在不到10秒的时间内运行100米。我们可以从这个声明中推断出我的朋友是一名好运动员。认为这台机器需要对此类生活事件有类似的理解以得出相同的结论,这可能很诱人。但是回答这种类型的问题并不超出AI系统的功能,因为可以编码这种描述成就和成就水平之间关系的知识,因此,提出的推论反映了某些形式的人类理解。如果在特定领域(例如聊天机器人销售助理)中使用了相对较小的自然语言子集,则可以实施此类任务。
AI阅读理解系统如何工作
大多数阅读理解AI系统通过阅读查询,理解和提供答案来工作。用户会在特定文档(或搜索万维网搜索)中询问有关文本的书面部分的问题,其答案以表达简洁的格式给出。?有许多可商购的AI系统可以以各种能力读取和理解文本。众所周知的例子包括Alexa和Siri。就Alexa而言,用户可以问一个问题:“ Alexa,英国总理劳埃德·乔治多久了?”。Alexa可能会回答:“劳埃德·乔治(Lloyd George)担任总理五年零十个月。”这是AI阅读理解任务的最简单类型之一,因为Alexa只是提取文本的相关部分。文本可以从与劳埃德·乔治(Lloyd George)有关的Wikipedia文档中读取,并以简洁的重新安排格式介绍。这种阅读理解称为知识提取,不需要大量的语言理解。其他基于Web的系统使用书面查询使用变化。例如,?Microsoft使用Web系统,该系统允许在一个窗格中输入文档,这是在另一个窗格中提出的问题,然后在同一屏幕上的第三个窗口窗格中理解。同样,这主要是使用知识提取来完成的。
但是,对于其他查询,理解可能成为必要的先决条件,因为句子的含义可能不清楚。例如,考虑以下语句:
钻头不适合盒子,因为它太大了。
“ IT”在此语句中指的是什么?大多数人类读者都会假设参考对象是我们对这些对象的常识感知中的练习。
钻头不适合盒子,因为它太小了。
但是,这个说法又如何呢?唯一从一个句子变为另一句话的单词是句子结尾处的大至小。在这种情况下,我们将从我们的常识理解中推断出“它”是指框。
但是,对于没有常识性世界知识,特别是了解大小的概念(即大小之间的差异),这是一个艰难的决定。
作为AI系统解释自然语言问题的另一个例子,请考虑句子中的歧义,如下所示:
我们看到了她的鸭子。
这句话可能意味着作家看到鸭子属于女人,或者可能意味着作家看到一个女人鸭子被朝她的方向撞到的物体击中,甚至可能意味着我们选择看到(即,即使用切割锯)她的鸭子在某些地方。人类将能够从使用句子的上下文中回答这一点。例如,如果它取自一个段落,其中包括以前的句子,指的是对那个女人扔进的物体,那么我们将得出结论,因为我们看到她的鸭子从向她扔向她的鸭子时。为了避免歧义,AI阅读理解系统也会从上下文中理解预期的含义。
AI理解还有许多其他困难,包括使用格言,隐喻以及对作家意图的微妙理解,尤其是在解释散文和诗歌时。其他问题包括确定对他人的编码批评,幽默等等。人类的准备要比机器做好准备,以实现自然语言沟通带来的巨大挑战。在1960年代,当AI对语言翻译项目的研究开始时,这是理解的。在这项研究的早期,这些方法使用基于规则的AI系统来构建它们,例如使用使用名词,动词等规则。这种方法在理解句子的结构(即语法)方面很好地效果很好,但是因语义(即句子的含义)而失败。
人类可以从上下文回答问题
如今,实施的系统使用深度学习。在这样的系统中,学习是通过使用数十万段(通常来自Wikipedia)进行的。段落和问题作为输入给出,输出给出了答案的深度学习网络预测。根据一些用于衡量AI阅读理解系统有效性的测试,深度学习方法在某些理解任务中的表现优于人类。另一个成功是在2019年,当时中国人工智能公司阿里巴巴在微软开发的数据集上进行测试时,胜过人类。
测试
已经开发了一些测试来衡量AI阅读理解性能。一项已成为事实上标准的测试称为小队(Stanford Question Answoring DataSet)测试。该测试起源于加利福尼亚州斯坦福大学,并使用Wikipedia文章的段落作品。这些文章中的每一个都包含付费人工工人回答的问题 - 称为机械土耳其人工人。然后,可以根据这些问题的答案对AI系统进行测试,并与人类或其他AI阅读理解系统进行比较。
结论
AI系统在阅读理解方面正在改善,但仍然缺乏执行性能所需的语义理解水平。与许多深度学习算法一样,它们运行良好,但是在偏离训练的数据集之外时会显示出不稳定的迹象。目前,他们还有一段路要走,然后才能接近人类的能力水平。然而,它们是节省时间且易于使用的,尤其是在需要冗长文档中的部分并且像许多机器学习应用程序一样,不断改进时。
由基思·达林顿(Keith Darlington)博士