大数据文摘出品:魏子敏、蒋宝尚今年9月,深度学习Indaba2018峰会在南非斯泰伦博斯召开,包括GoogleBrainJeffDean在内的一众研究人员到场分享。Insight数据分析研究中心博士生SebastianRuder在准备分享的过程中,就四个问题咨询了包括YoshuaBengio在内的20多位该领域的前沿研究人员。近日,SebastianRuder在推特上发布了20多个问答的完整记录,以及他对这些回答的分享总结。它提供了对自然语言处理领域最新发展的一瞥。下面我们就来看看这引发深度思考的四大问题:1、您认为NLP目前面临的三大问题是什么?您认为目前NLP中最大的三个未解决问题是什么?2.过去十年,您认为NLP领域最有影响力的研究是什么?如果只能选一个,你会说过去十年中NLP领域最具影响力的工作是什么?3.如果是,是什么因素使这个领域朝着错误的方向发展?如果有的话,是什么导致该领域走错了方向?4.对于现在开始他们的项目的NLP研究生,您有什么建议?共有来自自然语言处理行业和学术界的20多位顶尖研究人员受邀回答了这些问题。BigDataDigest选取了神经网络之父、《花之书》作者YoshuaBengio和芝加哥大学副教授KevinGimpel作为代表进行编撰。完整问答记录可在大数据文摘后台留言“20181212”(今天日期)获取。名人名单如下👇哈尔·多美三世、芭芭拉·普兰克、米格尔·巴列斯特罗斯、安德斯·索加德、玛娜尔·法鲁奇、米克尔·阿泰克斯、塞巴斯蒂安·里德尔、伊莎贝尔·奥根斯坦、伯纳德·杜文哈格、莉亚·弗莱曼、布林克·范德梅韦、凯伦·利维斯库、简·布伊斯、凯文·金佩尔、克里斯汀·德科克、阿尔塔deWaal,MichaelRoth,MaletěabisaMolapo,AnnieLouise,ChrisDyer,YoshuaBengio,FelixHill,KevinKnight,RichardSocher,GeorgeDahl,DirkHovy,KyunghyunChoYoshuaBengio1.最大的三个问题是什么?基础语言学习,即共同学习世界模型以及如何在自然语言处理中引用模型;在深度学习框架内整合语言理解和推理;commonsenseunderstanding,也就是解决以上两个问题,解决常识性问题。2.是什么导致该领域走向错误的方向?贪婪。我们总是关心短期的回报,我们总是试图用我们掌握的所有数据来训练模型,然后希望模型能够智能地理解和生成语言。但是,如果我们不能建立世界模型,不能深刻理解世界是如何运行的,那么无论我们设计的神经网络模型多么复杂,我们都永远找不到智能语言的秘密。因此,我们必须硬着头皮,致力于用NLP解决AI,而不是孤立地理解自然语言处理。4.你对研究生开始他们的NLP项目有什么建议?广泛阅读,不要局限于NLP论文。阅读大量机器学习、深度学习、强化学习论文。博士学位人生是实现自己追求的大好时机,即使迈出一小步也值得珍惜。凯文金佩尔1.您认为目前NLP最大的三大问题是什么?最大的问题与对自然语言的理解有关,即使在生成任务中,所有的挑战都可以这样理解:计算机不理解单词对人的作用。设计的模型应该像人一样阅读和理解文本,通过形成文本世界的表征,包括对象、设置、目标愿望、信念等元素。当然,背后还有其他人类需要理解的因素文本。在设计出理想模型之前,所有的进步都基于提高模型的模式匹配能力。模式匹配对于开发和改进产品是有效的。我认为生产“理性”机器不需要单独的模式匹配。2.近十年来NLP最有影响力的工作是什么?《自然语言处理几乎从零开始(Natural Language Processing (Almost) from Scratch)》,RonanCollobert、JasonWeston、LeonBottou、MichaelKarlen、KorayKavukcuoglu和PavelKuksa于2011年完成并发表的论文。简而言之,它建立在Colobert和Weston2008年的一篇论文的基础上,但对其进行了扩展。本文介绍了当前NLP设计的几种常用方法,例如使用神经网络进行NLP多任务学习,使用未标记数据进行预训练词嵌入等。3.是什么让我们步入了自然语言处理的“陷阱”?我认为是目前传统的NLP处理方式,比如采用的传统的监督学习。假设之一是测试数据和训练数据服从相同的概率。分配,这与实际情况完全不符。至少,真实的测试数据和训练数据在时间上的分布是不一样的,有时会有几十年的差距!所以,我们应该在域外学习,时间迁移等方面下功夫。传统的无监督学习和传统的监督学习都是不现实的,所以很高兴看到NLP研究人员最近专注于混合使用。混合设置。4.对于现在开始做项目的NLP研究生,你有什么建议?不要害怕创新,勇于尝试新事物。一般来说,风险越大,回报越大。如果失败了,或者没有达到预期,你也可能在这个过程中学到很多很有趣的东西,很有可能为你发表的论文积累素材。SebastianRuder还整理了20多位研究人员的回复,并在会议报告中给出了如下总结。自然语言处理发展里程碑👇问题一:NLP研究领域最大的问题在总结了25位研究人员的回答后,我们得出了这四大问题👇自然语言理解的低资源场景中的NLP大规模或多文档推理数据集、问题和评估问题2:哪些因素使该领域朝着错误的方向发展?问题三:您对NLP领域的硕士生有什么建议?【本文为专栏组织大数据文摘原创,微信公众号“大数据文摘(id:BigDataDigest)”】点此查看作者更多好文
