Zhidixcom(公众号:zhidxcom)|于扬年 由李飞飞团队创办的机器视觉领域著名的ImageNet视觉识别挑战赛已经落下帷幕。
回顾过去,ImageNet在2016年引爆了深度卷积神经网络,并在三年后推动谷歌、微软、百度等公司在图像识别领域超越人类!在图像识别领域,ImageNet做出了不可或缺的贡献。
现在在另一个数据集上,同样的故事可能正在发生。
年初,阿里巴巴联合微软亚洲研究院相继刷新斯坦福大学发起的SQuAD(斯坦福问答数据集)文本理解挑战赛成绩,机器阅读理解得分超过人类!这意味着机器阅读理解能力已经开始在“指标”上超越人类。
它能否引领自然语言处理(NLP)领域的下一场革命?近日,百度自然语言处理团队还在微软MS MARCO(Microsoft MAchine Reading COmpressive)机器阅读理解测试中获得第一名。
(百度荣获微软MARCO第一名)“自然语言处理是人工智能皇冠上的明珠”体现了NLP发展的艰辛。
这些公司相继在NLP竞赛中获胜。
这是否意味着机器阅读理解能力真的可以超越人类呢?我们采访了近10位NLP领域的资深人士。
其中有NLP初创公司的CEO/技术高管(如康夫子张超、SPEED葛富江、猎户星闵科睿),也有大公司的技术总监。
人(如搜狗刘明荣、科大讯飞王世锦)等。
通过交流,我们意识到机器在阅读理解成绩上超越了人类。
这可能是NLP发展的一个重大突破。
这意味着机器已经战胜了人类的“指标”。
机器确实可以在有限的场景下超越人类。
人类的表现。
但这最终是“指标”上的胜利。
如果我们想要能够理解和思考,机器还有一段“长征”要走。
1、公共数据集引发算法竞争。
在谈目前NLP的发展现状之前,我们先来看看两个机器阅读理解数据集,斯坦福的SQuAD和微软的MS MARCO。
SQuAD是斯坦福大学于2016年推出的阅读理解数据集,也是业界认可的机器阅读理解标准能力测试。
该数据集包含来自维基百科的文章以及总共超过 100,000 个问题。
机器阅读完数据集中的文章后,需要回答几个与文章内容相关的问题,并通过与标准答案进行比较来获得分数。
这个数据集有两个评价标准:EM(Exact Match)代表完全匹配,即机器给出的答案与标准答案相同才被认为是正确的; F1代表模型的整体性能。
EM值方面,人类得分为82.,而阿里巴巴和微软近期得分略高于人类,分别为82.和82.。
这就是为什么阿里巴巴和微软都说机器阅读理解成绩超过了人类。
目前综合排名第一的是科大讯飞和哈尔滨工业大学的联合实验室,EM成绩为82分,F1成绩为89分。
微软MARCO也应用于机器阅读理解领域。
它是一个由 100,000 个问题和答案以及 200,000 个独特文档组成的数据集。
与SQuAD相比,最大的区别在于数据集中的问题来自微软自家的Bing搜索引擎,它根据用户在Bing中输入的真实问题来模拟搜索引擎中的真实应用场景。
可以看出,微软希望利用这个数据集来提高用户获取信息的能力。
百度表示,MARCO的挑战难度更大。
它要求测试人员提交的模型具有理解复杂文档、回答复杂问题的能力。
百度选择这个数据平台,是因为它更致力于通过技术应用解决搜索中的实际问题。
可以看到,在机器阅读理解竞赛中,百度、阿里巴巴、科大讯飞、微软等公司取得了较为优秀的排名,这也反映出我国在NLP方面的研究也走在了世界前列。
这些阅读理解数据集也使得训练大规模复杂算法成为可能。
各大公司通过数据集优化算法来解决实际的自然语言问题,进一步推动自然语言处理的发展。
2. 限制边界情景的“指示性”胜利。
对于阿里巴巴、微软、百度等在机器阅读理解方面的表现,我们采访的NLP领域资深人士均表示,机器阅读理解所取得的成果确实是一个突破。
进步,可能是继机器翻译之后又一个取得重要进展的NLP领域;但机器阅读理解仍然是一个有边界限制的任务,距离真正的归纳推理还很远,所以应该说人类的胜利更多的是“指标”方面的胜利。
搜狗搜索事业部NLP技术负责人刘明荣表示,在斯坦福SQuAD竞赛中,阿里巴巴和微软的得分超过了人类。
这确实是 NLP 领域的一个重要进展,表明机器在特定任务上已经达到了与人类相当的水平。
,在特定场景下达到了接近实用水平。
同样同意这一观点的还有SPEED NLP高级工程师葛富江。
他指出,一方面,机器阅读理解属于文本理解,需要从文本中寻找相关信息并回答问题。
与单词和句子的理解相比,这是一项相对高级的任务。
NLP 任务;另一方面,机器阅读理解是一种边界有限的基于场景的机器理解。
问题的前提条件和场景边界都比较清晰。
因此,机器阅读理解能力超越人类的前提是“设定文章集和有限问题”的条件。
与往年相比,阿里巴巴和微软在机器阅读理解方面的成绩超过人类,确实体现了NLP技术的快速进步和发展。
但同时葛富江也表示,机器阅读理解距离真正的人类水平还有很长的路要走。
说机器阅读理解能力超过人类是不正确的。
猎户星首席科学家闵克睿向智东西解释,一个特定的任务数据集可以说是一个特定任务(世界的抽象)的代理,而我们的测试就是基于这个代理任务,所以有效性代理本身至关重要。
例如,在语音识别中,在无噪声的情况下使用播音员的数据算法可以达到很高的准确率,但这并不一定意味着语音识别超过了人类,因为这个代理任务太简单了。
同样的SQuAD数据设计将文本限制在wiki内,只有多篇文章,相当于简化了。
玲珑科技首席科学家唐跃忠博士也指出,此类竞赛条件有限,评价指标也存在片面性。
而同样的阅读理解任务,知喜喜了解到,百度也公布了难度和规模都更大的DuReader数据集。
目前最好的模型与人类准确度相比有近20个点的差距。
因此,虽然通过神经网络的端到端架构,机器阅读理解有了突破,但还远远没有超越人类。
康夫子创始人兼CEO张超补充道,这只能说明端到端的深度学习框架能够在“阅读理解”任务中取得不错的成绩。
也是深度学习在NLP应用领域的一次探索。
但大部分问题还没有达到需要“推理”的程度。
对于机器阅读理解“能理解、能思考”的最终目标来说,还只是万里长征的开始。
3. NLP发展现状:属于早期行业,场景有限,潜力巨大。
微软全球执行副总裁Sean Shum曾表示,人工智能的突破在于自然语言理解,“懂语言的人,就能赢得世界”。
自然语言处理也被称为“人工智能皇冠上的明珠”,充分体现了该领域的难度和重要性。
经过近几年深度学习的发展,NLP现在已经开始进入行业。
可以说是“初出茅庐”。
通过限制边界场景,开始进入家居、汽车、金融、医疗、教育等多个领域,未来发展前景不可限量。
科大讯飞北京研究院院长、人工智能研究院副院长王世进表示,随着深度学习技术的发展,NLP在人机问答、神经机器翻译、阅读等领域取得了巨大成就。
理解、用户画像、精准推荐。
重大技术突破,并逐步广泛应用于金融、教育、法律、医疗等领域。
具体来说,搜狗刘明荣表示,经过几十年的发展,NLP目前在词法、句法等浅层语言分析任务上已经达到了非常高的实用水平。
在一些具体的NLP任务上,比如语音中的语音识别与合成,文本中的文本分类、情感分析、文本摘要、机器翻译等,基本上已经达到了实用阶段。
从知识图谱角度,葛富江表示,随着知识图谱技术的发展,NLP在垂直场景的产品化也在加速,比如智能家居、车辆、机器人、企业对话服务等场景。
如今,NLP进步的驱动力是真实的应用场景不断涌现,这也将带来更多的场景需求、创造更多的数据,从而推动NLP的进一步发展。
在机器阅读理解方面,机器可以在“指标”上超越人类,但从长远来看,真正在通用领域超越人类仍然不现实。
“以机器阅读理解任务为例,机器在指标上应该很快就会超越人类目前的水平。
然而,真正的阅读理解过程需要深度推理和归纳,而这正是当前机器所缺乏的。
它还需要只有突破底层算法,才能在NLP领域实现真正的突破。
”王世进说。
人类的阅读理解和机器的阅读理解是两个层次的东西。
康夫子CEO张超表示,对于机器来说,阅读理解任务可以抽象为“将文章和问题作为输出,确定哪个答案最有可能”。
,一旦题型或者焦点发生变化,整个机器的效果可能会直线下降。
人类的阅读理解能力是阅读后理解、应用、推理甚至想象的能力。
不过,刘明荣也指出,虽然一般领域的机器还无法超越人类,但在特定行业,基于对特定行业数据理解的机器人,比如客服机器人,至少可以达到与人类同等的理解水平,总体而言,效率远高于人类。
可见,目前NLP在业界的商业化和落地才刚刚开始。
如果把NLP放到发展线上,目前还处于中早期阶段,只有在有限的边界内,才能有巨大的潜力。
由于它涉及大量的认知理解,所以仍然是一个非常具有挑战性的问题,在知识表达、常识表达和知识推理方面还有很长的路要走。
4、NLP发展的关键在于垂直领域的快速落地。
近年来,随着智能音箱在全球市场的普及,语音交互持续火爆,机器翻译、机器同声传译的快速发展,为NLP的进步创造了巨大的需求。
面对目前NLP的发展现状,行业资深人士也从数据、底层算法、知识图谱、应用等维度提供了进一步的发展方法。
SPHI葛富江认为,大规模的数据集或数据平台以及活跃、开放的研究氛围对于NLP技术的发展至关重要。
产品化在垂直领域的落地将是NLP技术进步最重要的推动力。
它将带来更多的移动数据、研究投入和社会资源,推动NLP的进一步发展。
基于实际应用需求,搜狗刘明荣认为,产学研结合是NLP发展的一大动力。
只有结合实际问题,建立大规模的评价数据和标准化的评价方法,让学术界和工业界共同参与,才能更好地解决当前问题。
猎户星闵克瑞表达了他对知识和语义表达的兴趣。
从这两年得到长足发展的神经机器翻译技术来看,他认为这在一定程度上证明了语义向量表达的可能性。
Orion Star 还在探索通过批量提供的未标记数据或弱标记数据进行准确的语义建模。
此外,康夫子CEO张超从自己的医疗机器人角度表示,下一步推动NLP发展的可能是在知识图谱层面,通过知识图谱构建机器对于任务的认知能力,以及然后加入语义、交互等处理工具,通过应用才能更好的推动一个行业的发展。
强调通过知识图谱推动NLP发展的不仅有张超,还有阿里巴巴AI Labs北京研发中心负责人聂再清博士。
他希望打造一个知识图谱的生态平台,让大量的开发者在上面构建知识图谱,利用积累的知识图谱不断扩大知识图谱在常识性和专业性方面的积累,即共同构建知识图谱,产生1>2的效果。
结论:引爆人工智能下一次革命?不得不说,机器阅读理解已经在“指标”上超越了人类,未来还将在所有“指标”上超越人类。
机器阅读理解能否像图像识别一样引领人工智能的下一次革命?随着NLP的突破,智能助理、智能客服、机器翻译等都将得到大幅提升,惠及金融、教育、家居、汽车等众多行业!但归根结底,机器无法像人类一样真正理解、整合、推理。
这只是限制边界场景的“指示性”胜利。
如果机器想要能够理解和思考,那只是万里长征的开始。
作为人工智能皇冠上的明珠,NLP技术的重要性和挑战不言而喻。
目前,NLP在垂直领域的快速产品化、知识图谱的构建、底层算法的突破将进一步推动认知智能的发展。