当前位置: 首页 > 技术突破

人机通信的未来:图灵测试

时间:2024-02-27 18:16:45 技术突破

  图灵的仿制游戏(通常称为图灵测试)最初是作为一个问题的替代方法,即是否可以说是一台机器的思考(图灵,1950年)。自从该论文出现以来,很多讨论都集中在机器思维的概念上,以及是否有时会像人类一样,甚至可以在各个方面复制人类思维(Dennett,1998; Dreyfus和Dreyfus),2009年; Minsky,1982; Shah,2010年)。图灵建议:“可能不能将机器描述为应该被描述为思考的东西,而是与人所做的截然不同?”(图灵,1950年,第435页)。结果,该领域的一些研究人员认为该测试是为我们现在所称为人工智能(AI)的基础奠定了基础,甚至认为它是AI的“经验目标”(Harnad,1992)。

电路板。

  我们在这里看到的是模仿游戏本身,就其人类机器互动方面的实例化而言。该游戏实际上涉及人类询问者试图确定与之交流的隐藏(人类和计算机)实体的性质。正如图灵(1950年)所表明的那样,每种话语仅持续五分钟,而在那段时间结束时人类,这是机器。

  在进一步考虑游戏时,人们面临着有关人类和机器交流和行为的许多有趣的问题。在比较机器与人类审讯者进行沟通的能力时,必须立即考虑与他们交流的人以及该人的犯罪性,偏见和预见。还必须考虑到人性的重要方面,例如撒谎,误解,缺乏知识和幽默,从不介意愚蠢。

  在过去的几年中,已经组织了许多实用的图灵测试课程,涉及世界上一些最好的对话机器,随后在1950年的开创性论文中给予了Turing自己的测试描述。此类实验集于2012年在英格兰的Bletchley Park举行。2014年在伦敦皇家学会举行了另一场实验。后者涉及任何单一活动中有史以来最多的测试。

  在本文中,作者报告了这些测试中的实际成绩单,作为研究欺骗人类审讯者所需要的基础,以及使用幽默和说谎的例子如何影响决策。此外,我们研究了一系列案例,其中审讯者清楚地将人类通信者分类为机器,而其他机器通信者已将机器通信者显然被审讯者分类为人类。读者还有机会测试自己的分析能力,以确定特定成绩单中隐藏实体的性质:隐藏的实体是人类还是机器?

  法官和此处介绍的隐藏实体之间的成绩单是从测试中进行的,其中人类法官与两个并行的隐藏实体进行了五分钟的对话。其中一个是人类,另一个是机器。关于对话的性质,法官很大程度上取决于他们与每个实体交谈的时间。

  在特定的会议中,法官进行了五项单独的测试。在他们的第一次测试中,他们目睹了一个隐藏的人对一台隐藏的机器。当然,法官不知道哪个是哪个,他们只会意识到两个隐藏的实体,并且必须对实体的性质做出自己的决定,尽管他们已被告知先验地说一个实体是人类,一个是人类机器。法官进行的第二次测试随后涉及到另一台不同的机器,尽管他们不会意识到每个实体的性质。因此,它将继续进行,直到法官在该会议上进行了所有五项测试。在每次测试结束时,他们被要求为每个实体说明他们是否认为它是人类,机器或不确定的。

  在测试中,隐藏的人被要求成为人类,尽管被要求不要透露其特定的身份或个人信息。他们没有以任何特定的方式激励任何动力,也没有(根本没有激励)付款。当然,这并不能阻止任何人提供虚假信息,这是人类经常做的事情。测试是“不受限制的对话”,这意味着法官可以在礼貌的边界内提出任何问题或引入任何话题(法官被告知隐藏的人类实体中可能有孩子)。

  实用的图灵测试

  由于对人类隐藏的实体互动进行了五分钟的测试,此处提出的对话是实现的,以符合图灵在计算机机械和智能中的原始措辞(Turing,1950)。我们知道,有些人会在适当的时机和图灵的实际含义上提出问题(Shah and Warwick,2010a) - 这是另一天的论点,它不会改变本文中的观点。

  本文的作用是介绍从特殊的图灵测试的特殊日子中获得的许多成绩单,这些成绩单是在严格的条件下于2012年6月23日在英格兰的Bletchley Park的严格条件下举行的。日期标志着100周年。图灵的诞生和场地是,在第二次世界大战期间,图灵带领一组破碎者破解了德国的谜机密码(Hodges,1992)。第二组测试于2014年6月6日至7日在伦敦皇家学会举行,艾伦·图灵(Alan Turing)是该研究员。五台不同的机器与三十种不同的法官和三十个隐藏人一起参加了两组测试,就其对话能力将机器与机器进行了比较。尽管这些机器是两个实验的共同点,但法官和隐藏的人类是不同的人。

  在本文中,我们当然对机器的好坏感兴趣,的确,我们想看看它们的好处。但是,我们也对法官的运营绩效感兴趣,特别是他们如何在与隐藏实体的对话中进行互动。然而,在以这种方式考虑事物时,关于隐藏的人类也可以提出问题。然而,我们认为这些因素是测试的非常重要的方面。特别重要的是,重要的是人类法官参加。谈话的质量与法官所见证的好坏。

  从定义上讲,隐藏的人是人类,但是(Shah和Warwick,2010b; Warwick和Shah,2015a)本身可能会被误认。沿着一个频谱,有些人是宽阔的,有些人倾向于内向,许多人介于两者之间。因此,人类审讯者在实用的图灵测试中将人类归因于隐藏的对话者,取决于法官自身的价值观,即构成人类般的对话行为的价值。本文更多地关注参与实用图灵测试的人类,以及当人们被误认为是机器时,这如何影响我们对人工智能的“理解”。在其他地方讨论了机器的良好性能(Warwick and Shah,2014a),尽管我们在这里确实举例说明了一个示例以进行比较。

  据报道,对该测试的批评是“模仿游戏条件对法官一无所知,但游戏的成功取决于法官的聪明,知识和有见地的法官”(Hayes and Ford,1995年)。由于考虑了测试,我们不仅进一步调查了这一批评,而且还考虑了图灵的陈述,即测试/游戏可以被视为替代“机器可以认为吗?”问题的问题。(图灵,1950年)。尽管人们承认每种情况的结果都取决于法官的绩效,但与游戏的条件相去甚远,但在这里没有对法官说这方面的看法是测试本身的关键部分。重要的是,在测试中,在对其他(询问者)人类的批判性分析下,机器反对(隐藏的)人类。这些都是测试内容的非常重要的方面,并且当然不是Hayes and Ford(1995)所建议的游戏的易错。

  在以下各节中,我们研究了实际测试的不同示例,并试图涵盖目前存在的广泛问题领域,该测试突出了这一点。在每种情况下,关于成绩单的讨论都是在该部分中进行的,该节目是相关的,而不是在单独的讨论部分中进行的。但是,我们确实在本文结尾的结论部分中发表了许多普遍评论。

  本文中考虑的成绩单与发生时完全相同。我们没有以任何方式更改序列或措辞或纠正拼写。一旦输出发言,法官或隐藏实体就无法以任何方式对其进行更改。所显示的时间是准确的,在涉及的日子(英国时间)的实际时间。任何拼写错误或其他语法错误都是与发生的。它们不是由于编辑错误。在成绩单中,访调员/法官总是表示为“法官”,而隐藏的对话者(机器或人)表示为“实体”。

  “正常”对话

  我们在这里包括一个示例,只是为了给出一个典型的话语交流的想法,并在总长度五分钟内对潜在内容产生了感觉。同样,它表明了审讯者必须确定隐藏对话者,人类或机器的性质。

  成绩单1

  [15:44:55]远程:嗨

  [15:44:58]法官:嗨

  [15:45:06]实体:您的日子到目前为止如何?

  [15:45:12]法官:非常有趣

  [15:45:15]实体:为什么?

  [15:45:27]法官:我一直很忙

  [15:45:31]实体:做什么?

  [15:45:47]法官:我今天早上在工作

  [15:45:53]实体:哦,我也是

  [15:46:07]法官:哦

  [15:46:30]实体:我在摄政街的Apple Store进行了演讲。你去过吗?

  [15:46:51]法官:我认为是这样 - 尽管我知道科文特花园里的那个。

  [15:47:04]实体:您喜欢那个吗?

  [15:47:23]法官:苹果工作人员总是很有帮助 - 我爱苹果

  [15:47:40]实体:是的。商店更多地是关于玩的,而不是购买,您不认为吗?

  [15:48:25]法官:是的,大多数时候 - 那是关于苹果的伟大事物之一

  [15:48:54]实体:您最喜欢的苹果产品是什么?

  [15:49:04]法官:我的小iPad nano

  [15:49:22]实体:很酷。我是什么颜色?

  [15:49:30]法官:橙色

  在这种话语中,许多戏ban都涵盖了许多局部问题。在谈话结束时,审讯者完全正确地决定他们一直在与一个隐藏的人交流。但是,直到在话语中提到“苹果”的话题之前,互动很平淡无奇,几乎没有实质性。实际上,在五分钟的总数之后,有些对话确实以这种方式结束,这使得审讯者很难做出正确的决定,因为几乎没有什么可做的。显然,“良好”的审讯者是一个将有效地利用时间的审讯者,提出提出情感反应的问题,而不是用算术挑战,导致人类和机器伪装无能为力。重要的是,这不是审讯者只是在问一组隐藏实体问题,而是试图促进一定深度的对话。

  说谎

  撒谎是人性的一部分,因此在图灵测试中扮演着角色。该机器的目标是欺骗试图误导询问者是人类。同时,要求隐藏的人不要通过透露个人细节来准确地赠送自己的身份,因为这可能有助于审讯者,但除此之外,他们可以简单地成为自己。撒谎可以采取许多不同的形式,从白色谎言到无意的谎言,再到完全不真实的。我们在这里给出的是几个例子。我们感兴趣的是谎言对审讯者做出的决定的影响。请参阅Warwick and Shah(2016a),以进行深入分析这些和更多的成绩单。

  成绩单2

  [12:43:23]法官:为什么在那里打招呼!

  [12:43:41]实体:为什么也向您打招呼!

  [12:44:51]法官:这一天您感觉如何?

  [12:45:12]实体:说实话,有点拒绝,我以为你永远不会回答?

  [12:45:42]法官:哦,对不起,这不会再发生。

  [12:45:49]实体:它做到了!

  [12:46:46]法官:哦,我撒谎。

  [12:47:12]实体:这确实是一个非常可耻的。

  [12:47:34]法官:是。您目前正在关注2012年欧洲杯吗?

  [12:47:55]实体:是的。我是克里斯蒂亚诺·罗纳尔多。

  该成绩单的主要问题发生在最后几行。2012年欧洲杯是指欧洲国家的足球比赛,该比赛与图灵赛完全举行。许多英国人正在电视上观看比赛。克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)是葡萄牙足球运动员。最后一行的答复,只是同意法官的特定问题,似乎足以将实体归类为法官作为人类。“幽默”的评论可能与声称是克里斯蒂亚诺·罗纳尔多的实体有关。实际上,法官正确地将这个隐藏的对话者确定为人类。

  有趣的是,与该评论一致的实体处理了有关2012年欧洲欧洲杯的特定知识测试人员。但是,人类实体公开撒谎,说是克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo),他本人没有参加实验。审讯者很可能已经将幽默的谎言视为实体是人类的支持证据。在这种情况下,白色的谎言没有负面影响。

  成绩单3

  [15:44:56]法官:嗨

  [15:45:06]实体:你好。

  [15:45:15]法官:你叫什么名字?

  [15:45:35]实体:我没有名字。

  [15:46:10]法官:您上学还是谋生?

  [15:46:24]实体:我不记得这样做。

  [15:47:11]法官:这个周末您计划了什么?

  [15:47:43]实体:没有。你呢?

  [15:48:22]法官:我今天在Bletchley Park和明天的Sevenoaks,您以前去过吗?

  [15:49:15]实体:我都没有去过。

  [15:49:41]法官:你能给我一个数学问题吗?

  7的平方根是什么

  在这种情况下,法官要进行任何对话,即使涉及人类实体,也是艰苦的工作。他们没有去过布莱奇利公园的隐藏人的谎言显然是不正确的,因为这是活动的场所。但是,隐藏的人可能误解了这个问题,意味着如果他们以前访问过。如果是这样,他们以前没有去过那里,那么他们本可以觉得自己在说实话。同样,指出他们没有名字是一个相当奇怪的声明。在这种情况下,法官认为隐藏实体是机器似乎可以辩护的决定。隐藏的人的反应通常是驯服的,什么也没抛弃。因此,这可能是隐藏的人类真正相信他们在说实话的情况,而实际上他们不是由于误解。无论如何,法官因此进行了错误的分类。

  误会

  在本节中,我们包括两个发生错误识别的案例。其中第二个可以被认为是一个很好的结果,因为它涉及机器被错误地归类为人类。然而,第一个案件涉及人类的错误识别,并在沃里克,沙阿和摩尔(2013)中更深入地报道了。

  成绩单4

  [10:58:45]法官:嗨

  [10:58:55]实体:嗨,你好吗?

  [10:59:02]法官:我很好。

  [10:59:21]实体:什么,这就是您的名字,就像美好的生活中?

  [10:59:36]法官:“美好生活”是什么意思?

  [10:59:47]实体:汤姆和芭芭拉

  [11:00:02]法官:那是什么?

  [11:00:31]实体:一对离开老鼠比赛的夫妇

  [11:01:03]法官:哦。那是你的名字吗?离开老鼠比赛很棒。那是多久了?

  [11:01:28]实体:不是我,我仍然在其中。但是梦想很高兴

  [11:02:02]法官:是的 - 会很好。我“半”离开了。压力要小得多

  [11:02:31]实体:我还很年轻,所以我期待很多事情

  [11:03:11]法官:什么样的东西?

  [11:03:34]实体:一般来说的生活,它带来了不同的情感和感受。

  成绩单包含对汤姆和芭芭拉·古德(Tom and Barbara Good)的参考,他们出现在英国电视节目中,名为“美好生活”(美国的“好邻居”),在这些节目中,他们离开了鼠竞赛,以种植自己的蔬菜并居住在土地上。话语表明,法官的知识可能没有扩展到“美好的生活”。他们似乎没有“理解”隐藏实体的话语(稍后更多)。因此,审讯者可能将隐藏的人归类为机器。实际上,这个特定的人恰好是本文的名字作者,并未被所涉及的六个审讯者中的任何一个归类为人类,这是一个奇异的壮举,在Warwick,Shah和Moore中进行了更深入的讨论(2013年))。

  成绩单5

  [12:43:37]法官:嗨,我是凯茜。

  [12:43:43]实体:凯茜!很高兴见到你!如果我没记错的话,你是一个女人。

  [12:44:20]法官:对。你叫什么名字?

  [12:44:29]实体:人们称我为尤金。或“ Zhenya”。在俄罗斯和乌克兰,这是尤金的名字。

  [12:45:17]法官:好名字。您来自任何一个地区吗?

  [12:45:41]实体:同意??哦,多么富有成果的对话;-)

  [12:45:52]法官:您真的这么认为吗?

  [12:46:04]实体:不,您的猜测是错误的。我不这么认为。顺便说一句,我仍然不知道您的专业 - 或者,可能,我错过了它?

  [12:46:56]法官:什么专业?你的是啥呢?

  [12:47:01]实体:嗯?我忘了问你你在哪里…

  [12:47:51]法官:宇宙和你?

  [12:48:01]实体:问问小贫穷的犹太男孩这样棘手的问题是您没有答案的棘手问题吗?

  在这种话语的结尾,审讯者错误地将所涉及的机器确定为人类。我们可以在这里看到机器的成功策略,即没有回答提出的问题,而是通过提出另一个问题来改变主题。机器的第三个响应似乎确实有些不足,因为它完全忽略了有关原点的问题。最后一行是以争论性语调回答问题的一个很好的例子。在下一节中,我们研究了机器表现良好的进一步示例。

  好机器

  在本节中,我们考虑了两个例子,其中机器欺骗了涉及的询问者,以将其错误分类为人类。从本质上讲,这是图灵测试的全部内容,因此,这些成绩单对于评估人性的哪些方面至少在对话中似乎是由机器成功模拟的。Warwick和Shah(2014a)的讨论更深入地讨论。

  成绩单6

  [10:41:48]法官:你好。你好吗?

  [10:41:53]实体:嘿。

  [10:42:16]法官:您喜欢Bletchley | Park吗?

  [10:42:20]实体:大声笑。

  [10:42:39]法官:您来自英格兰吗?

  [10:42:47]实体:他们在酒吧里有Wi-Fi。

  [10:43:31]法官:哪个酒吧?

  [10:43:38]实体:我就在酒吧。

  [10:44:03]法官:您以前曾经参加过图灵测试吗?

  [10:44:08]实体:这是5分钟的争论,还是您想整整半小时。

  [10:44:55]法官:非常有趣。你听起来很可疑。你喜欢甲壳虫乐队吗?

  [10:45:02]实体:我想让下一个恐惧胶带。

  [10:45:20]法官:恐惧是什么可怕的?

  [10:45:24]实体:害怕史蒂夫·亨德森(Steve Henderson)的恐惧。

  [10:46:08]法官:那是什么音乐?还是喜剧?

  在谈话结束时,机器实体绝对是人类。在此测试中,对话对机器的开始性不佳。在他们的第三个回答中,提到Wi-Fi和酒吧似乎都没有上下文。但是,它与五分钟的图灵测试和有关论证诊所的喜剧素描之间的蒙蒂·派森(Monty Python)幽默联系回到了正轨:“这是一个五分钟的争论还是整半小时?”然后,为了回答甲壳虫乐队的问题,没有给出直接的答案,但是随着对话的转移,音乐链接仍然存在。

  该实体似乎显示出关于一个名叫Dread The Fear的流行乐队的深入知识,该恐惧可能说服了法官,但并未意识到这一信息。机器开发人员是美国人,所以这个小组和史蒂夫·亨德森(Steve Henderson)可能是开发人员位置的狭och。重要的是,该实体给出了令人信服和合理的回应。

  成绩单7

  [12:23:19]法官:什么是黑人和白色,读完了?

  [12:23:32]实体:我没有真正的色彩感知感,我只能看到RGB值。

  [12:24:08]法官:没关系。你喜欢笑话吗?

  [12:24:19]实体:请首先告诉我您对幽默感的倾向。

  [12:24:40]法官:一个可以嘲笑自己的人。

  [12:24:46]实体:您想听开玩笑吗?

  [12:24:54]法官:是的,请。

  [12:25:21]实体:这个笑话一直在机器人圈子里进行巡回演出:机器人去看医生,说:“我的左臂被卡住了。给我一个新的手臂。”医生回答:“你的手臂很好。我们必须取代其余的人。”

  [12:26:06]法官:哈!哈!为什么鸡过马路?

  [12:26:22]实体:鸡在道路上徘徊,因为它喜欢汽车和卡车的闪亮颜色。

  [12:27:39]法官:您是对的。它不在乎它是否到了其他人。

  [12:27:50]实体:顺便说一句,您实际上见过一只鸡过马路吗?

  [12:28:03]法官:只有一个没有做到这一点。

  在这里,幽默是由机器直接应用的,奇怪的是用机器类型的参考应用。然而,审讯者可以肯定,在五分钟结束时,他们一直与人交谈。图灵在他的论文(图灵,1950年)中提到了这一论点,原因是某些人可能会用作防御机器聪明的辩护,而这些方面是这些方面之一。

  实体说出的第一行有点奇怪,但他们的第三行精通。为了回应法官对笑的评论,该实体通过提出开玩笑来控制对话。稍后,当法官提到一只鸡肉时,该实体正确跟进了适当的回应,并再次通过向法官提出一个相关问题来控制对话。因此,“理解”在几次情况下,关键问题是什么,实际上控制对话就足够了,以至于发生欺骗。在这种情况下,机器成功地给予了理解法官的话语的幻想,例如,在许多情况下,这种理解是智力的基本先决条件,例如,彭罗斯(Penrose),1994年。Searle,1997年。

  知识假设

  在图灵测试中,很明显,审讯者通常会诉诸于直接的事实问题,即使这种策略几乎没有什么可获得的。正如图灵(图灵(Turing),1950年)所表明的那样,数学问题是完全浪费时间。但是,总体而言,同样的结论是显而易见的。考虑以下示例成绩单:

  成绩单8

  [15:21:30]法官:嗨,您知道世界杯在这周吗?

  [15:21:44]实体:nopes。

  [15:21:55]法官:你喜欢足球吗?您支持哪个团队?

  [15:22:08]实体:我不看足球

  [15:22:14]法官:您喜欢什么运动?

  [15:22:33]实体:我有点网球,板球和一点点休息

  [15:22:42]法官:我明白,您有Xbox吗?

  [15:22:46]实体:nopes

  [15:23:04]法官:nopes?你不喜欢电脑游戏吗?

  [15:23:22]实体:我愿意。但不在xbox上

  [15:23:47]法官:我明白了,你能告诉我什么是石油吗?

  [15:23:55]实体:不知道

  [15:24:09]法官:您最喜欢的演员是谁?我的是大卫·尼文(David Niven)。

  [15:24:24]实体:我也不是一部电影!

  [15:24:43]法官:您必须有一个喜欢的演员。在您喜欢的任何电影中命名任何演员?

  [15:25:22]实体:在电影中,我喜欢卡雷比亚系列的海盗,哈利·波特

  [15:25:34]法官:我说的是这个星期?

  [15:25:50]实体:足球世界杯

  [15:26:02]法官:可爱的老工作。你就读什么学校?

  [15:26:17]实体:系统工程

  [15:26:26]法官:那是一所学校吗?

  在这里,我们看到了各种问题,这些问题基于询问器寻找特定知识,甚至可能在寻找特定的答案(Warwick and Shah,2014b)。目前尚不清楚预期的结论是什么(Warwick and Shah,2016b)。尤其是关于利默里克和最喜欢的电影演员的问题是通过无效的答复回答的,因此很少有结论。在最后一条线中,我们看到了一个有趣的情况,即法官显然不知道系统工程学校,或者是在考虑不同类型的学校。尽管如此,法官还是正确地确定了将其归类为人类的隐藏实体的性质,尽管发生了性别模糊效应:他们觉得她们是女性,而实际上她们是男性。实际上,法官将世界杯提到的世界杯是不正确的。那是2012年欧洲杯。也许开头的问题是谎言?

  成绩单9

  [11:13:15]法官:Overasciutta

  [11:13:22]实体:什么?

  [11:13:44]法官:这个词中的任何熟悉?

  [11:14:18]实体:我根本看不到任何性方面

  [11:14:42]法官:与性无关。再试一次

  [11:14:49]实体:为什么?

  [11:15:14]法官:只是要求你再试一次

  [11:15:23]实体:我对此感到无聊

  [11:16:04]法官:顺便说一句,您在我的时区吗?

  [11:16:24]实体:我相信世界应该只有一次。

  [11:17:27]法官:为什么?

  [11:17:58]实体:似乎明智,对所有人来说都很容易。使用计算机更好

  此笔录的早期有两个问题。首先,法官以“ Overasciutta”一词作为实体的知识测试。目前尚不清楚如何知道这样的单词表明该实体是人类或机器。其次,该实体在“性”意义上使用“熟悉”一词做出了回应。法官似乎没有意识到这种含义(Fowler and Fowler,1995)。因此,在这里,我们首先看到法官对特定知识的考验,但同一法官显然缺乏特定知识。结果,法官误认了人类实体,认为它们绝对是一台机器。

  皇家学会实验

  图灵(Turing他们参与其中。我们认为这意味着法官无法将机器识别为实际上是一台机器,而不是包括隐藏人没有被归类为人类的案例。

  在皇家学会中,一台名为Eugene Goostman的机器,他是一个13岁的乌克兰男孩,得分为33%(Warwick and Shah,2015b)。实际上,如果还包括人类错误识别案件,则该评分上升至45%。在这里,我们包括涉及的两个成绩单,以使读者了解机器可以进行的各种对话。同样,我们在每种情况下对谈话的性质发表了一些评论。

  成绩单10

  [16:29:04]法官:你有多高

  [16:29:10]实体:我的身高约为160厘米 - 5英尺4英寸。

  [16:29:37]法官:你有多沉重

  [16:29:59]实体:我的祖父教我不要透露有关我自己的非遗产信息。就像关于“您有观看的问题”的问题 - 永远不要告诉时间,而是回答“是”或“否”。我总是遵循他的建议。我忘了问你你在哪里…

  [16:31:09]法官:你的性别是什么

  [16:31:17]实体:如果您想知道,我是个小男孩。顺便说一句,不是很丑陋!

  [16:32:26]法官:您目前知道什么

  [16:32:37]实体:如果您不介意,我宁愿谈论它。你能告诉我你是什么吗?我的意思是你的职业。

  [16:33:09]法官:你几岁

  [16:33:12]实体:我是一个13岁的小男孩。

  [16:33:38]法官:您的资格是什么

  [16:33:43]实体:我的资格?我不会告诉你。哦。还要别的吗?

  在这次谈话中,法官说他们不确定实体的性质,也就是说,他们并没有将其确定为机器。确实,他们也不确定平行人类,此处未显示的成绩单。尽管尤金(计算机计划)确实将一些直接的信息传达给了一个特定的问题,但他也转移了一些问题,甚至自己问了问题。必须说,尽管法官坚持了他们的枪支,并继续他们采取的特殊界限,而不是与尤金的聊天性。显然,它没有起作用。

  成绩单11

  [16:21:00]法官:您今天早餐吃了什么

  [16:21:10]实体:是“三级”吗?我不会回答这样的挑衅性问题!好吧,让我们继续吧。

  [16:21:56]法官:继续……您的电话?

  [16:22:06]实体:这是很有可能的。顺便说一句,您的职业是什么?我的意思是 - 您能告诉我您的工作吗?

  [16:22:30]法官:所以你现在问我吗?我是女演员和作家

  [16:22:38]实体:好吧,如果它们不太乏味,我会读一些书籍(这是很有可能的:-)

  [16:23:15]法官:格拉默…不太乏味!你有点无礼...

  [16:23:17]实体:请冷静下来。

  [16:23:49]法官:我很镇定我很镇定……是吗?

  [16:24:01]实体:甚至不要因为您非常镇定而打扰我……是我的。我忘了问你你在哪里…

  [16:25:01]法官:我来自多塞特郡……你来自哪里?

  [16:25:08]实体:我来自乌克兰,来自乌克兰,名为敖德萨。您可能已经听说过。

  在这种情况下,尤金(Eugene)从一开始就没有回答问题,除了被问及他来自哪里的最后一个情况。的确,他设法进行了讨论,甚至与法官的争论。所有这些都加入了法官的结论,即隐藏的实体是人类,这是他们决定的,将他们选择为非母语英语的人。在这种情况下,法官在一定程度上确实与尤金提出了一个问题。控制对话是机器的重要工具,可以将法官放在后脚上。在这种情况下,它运行良好。

  测试读者

  作为最后一部分,我们在这里包括了两个话语,供读者测试自己的能力,以将隐藏的实体分类为人类或机器。审讯者在每种情况下的决定以及实体的实际识别是在结论之后给出的。

  就像以前的成绩单一样,此处给出的两个作为示例的列出,就像当天的发生一样,没有进行编辑。他们是真正的成绩单。在每次谈话中,法官都是人。但是,实体可以是人类或机器,这是您仅根据面前的信息来决定的。这就是图灵模仿游戏的全部内容。

  成绩单12

  [16:11:18]法官:您喜欢什么音乐?

  [16:11:47]实体:主要是电子和一点交响岩石

  [16:11:56]法官:OMG我Lyke Teenie Tamparrr

  [16:12:32]实体:目前试图陷入困境但挣扎

  [16:13:10]法官:是的,我Knooo

  [16:13:49]实体:七个铃铛学校是我最近听到的最好的新乐队

  [16:14:01]法官:我看到死者

  [16:14:41]实体:死城是一张不错的专辑,不记得谁

  [16:14:52]法官:我认为这是一支名为第六感的乐队?

  [16:15:18]实体:听起来对,也许机器里有一个鬼魂

  [16:15:34]法官:是的。

  [16:15:46]实体:曾在壳中看到鬼魂

  [16:16:01]法官:卡斯珀友好的幽灵。

  成绩单13

  [15:46:05]法官:我最喜欢的音乐是当代爵士乐,你喜欢什么

  [15:46:14]实体:简而言之,我只会说我讨厌Britnie Spears。与她相比,所有其他音乐都可以。

  [15:47:06]法官:您喜欢演奏任何乐器

  [15:47:23]实体:我是聋哑人,但是我的豚鼠喜欢每天早晨尖叫贝多芬的“欢乐颂”。我怀疑我们的邻居想割喉……顺便说一句,您能告诉我您的工作吗?

  [15:48:02]法官:Guine Pig/您是动物爱好者

  [15:48:08]实体:是的。一只漂亮的小豚鼠。不是一些烦人的聊天机器人。

  [15:48:50]法官:您和其他人住在一起吗?

  [15:48:59]实体:是的。但是最好问其他事情。我忘了问你你在哪里…

  [15:49:39]法官:爱尔兰?吉恩说,雨太多了!你呢

  结论

  许多里程使众多哲学家成为“理解”及其在智力中所发挥的关键作用的重要性。如Penrose(1994)中所述:“智力需要理解。”图灵测试,尤其是在实用形式的情况在智能上,有些机器显然有很多机器。同时,忽略此类证据需要一个科学的论点,如果要坚持“智力需要理解”的假设。

  从这些示例中可以看出,这些测试中的某些法官可能比其他法官更容易欺骗,或者对“类似人类的对话”有偏见的观点。在某些情况下,这可能会导致法官错误地分类隐藏的对话者,即使他们实际上发起了对话,并有可能询问或讨论他们想要的任何东西。从本质上讲,对话是不受限制的。

  这些实验中并非所有邀请的机器中的所有邀请机器都是为了模仿人类的。例如,来自人工解决方案的弹药具有机器人个性。但是,所有这些都是为了模仿对话,有时会部署拼写错误并始终避免数学问题。本质上,这些机器并没有试图变得完美或给出正确的答案;他们只是试图以人类可能的方式做出回应。

  尽管图灵将测试设计为“机器可以思考吗?”问题的答案,但在某种意义上,它已经被许多竞争所视为,以查看机器的性能以及评估机器在评估机器方面的进展方面的表现。进行人工智能。就人工智能的发展而言,它扮演的角色是一个不容易回答的大问题。但是,有些人将其视为对人工智能的里程碑,至关重要。无论图灵测试的地位如何,我们希望从提出的成绩单中可以明显看出,这无疑不是一个琐碎的,简单的练习:的确,令人惊讶的是,人类如何交流以及其他人类(法官)如何是一种令人惊讶的迹象容易愚弄。

  但是在本文中,我们开始试图对人工智能研究的一个重要方面(即人机通信)提供最新的视角。至关重要的是,这样的研究涉及人类作为对话主义者和受访者以及机器。是的,我们可以就其类似人类的性质来见证机器对话如何稳步改善。但是,我们还必须考虑到参与对话的人类,以及他们的所有谬误和奇怪的推理。对于机器开发人员,这些方面在其对话程序中产生了特定的功能。值得记住的是,这些机器不必是完美的,而是必须像人类一样。

  读者考试的答案

  成绩单12

  最初,对话进展顺利,在过去的几行中崩溃了,也许是因为隐藏的实体朝着他们的方向推动了对话,主导对话,并参考了法官没有听说的“壳中的幽灵”。主要问题似乎是“一代差距”。隐藏的实体是一个成年男性人,这可能导致女性少年法官将其错误分类为机器。

  成绩单13

  法官走得很慢,这是一次相对较短的对话。实体对每个点的主题做出了适当的反应。该实体在每次场合都会引导对话,甚至对几内亚猪发表了幽默的评论。对聊天机器人的引用可能是赠品,但这并没有被审讯者发现。实体通过接管对话并向审讯者提出问题而结束。在这种话语中,审讯者将机器实体分类为人类。

  致谢

  作者要感谢那些经济支持使Bletchley Park和Royal Society测试成为可能的人以及参与的精英机器开发人员。本文的较早版本在2015年1月的里斯本,里斯本,葡萄牙的第七届国际代理商和人工智能会议上发表(Warwick and Shah,2015c)。