当前位置: 首页 > 科技观察

人工智能研究热点:自然语言处理

时间:2023-03-12 22:48:08 科技观察

人工智能(AI)作为新一轮科技革命和产业变革的重要驱动力,正在深刻影响和改变世界。自然语言处理(NLP)已成为人工智能领域的研究热点。它推动了语言智能的不断发展和突破,越来越多地应用于各行各业。正如国际知名学者周海中先生曾说:“自然语言处理是一个极具吸引力的研究领域,具有重大的理论意义和实用价值。”各种沟通的理论和方法。利用自然语言与计算机进行交流,具有十分重要的现实意义,也具有革命性的理论意义。实现人机之间的自然语言交流,就是让计算机能够理解自然语言文本的含义,并用自然语言文本表达给定的意图、思想等;前者称为自然语言理解(NaturalLanguageUnderstanding,简称NLU)。),后者称为自然语言生成(NaturalLanguageGeneration,简称NLG)。因此,NLP一般包括两部分,NLU和NLG。因为处理自然语言的关键是让计算机“理解”自然语言,所以NLU通常被认为是NLP,也被称为计算语言学。NLP综合了计算机科学、语言学、自动化、数学等,是一门综合科学。因此,该领域的研究将涉及自然语言,即人们每天使用的语言,因此它与语言学的研究密切相关,但又有重要区别。NLP不是对自然语言的一般研究,而是能够有效实现自然语言交流的计算机系统,尤其是软件系统;因此它是计算机科学的一部分。可以说,NLP是计算机科学、语言学、人工智能等研究计算机与自然语言交互的一个领域。目前,人们对人工智能的需求也从计算智能、感知智能发展到以自然语言处理为代表的认知智能层面。没有成功的NLP,就不可能有真正的认知智能。因此,自然语言处理被视为人工智能极具吸引力的研究领域,是人工智能必须首先解决的核心问题之一,也被誉为人工智能皇冠上的明珠。由于人工智能包括感知智能(如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),因此语言在认知智能中起着核心作用。如果语言问题能够解决,那么AI最难的部分就基本解决了。美国微软公司创始人比尔·盖茨先生曾说过,“语言理解是人工智能领域皇冠上的明珠”。微软公司前全球执行副总裁沉向阳先生也在一次公开演讲中表示:“懂语言者得天下……未来十年,人工智能的突破口将在于对语言的理解。”自然语言……人工智能对人类影响最深远的是自然语言”。由于理解自然语言需要广泛的外部世界知识以及使用和操纵这些知识的能力,NLP也被认为是解决AI-complete的核心问题之一。可以说,自然语言处理是目前人工智能领域的关键核心技术,其研究充满魅力和挑战。NLP涉及的领域很多,主要包括机器翻译、语义理解和对话系统。目前面临四大挑战:一是词法、句法、语义、语用、语音等不同层面存在不确定性;第二,新的词汇、术语、语义和语法导致未知语言现象的不可预测性;第三,数据资源不足,难以覆盖复杂的语言现象;第四,语义知识的模糊性和错综复杂的关联性很难用简单的数学模型来描述,语义计算需要进行庞大参数的非线性计算。比如在对话系统中,深度学习现在已经成为对话系统的基础技术;神经网络被应用于传统的面向任务的对话系统的不同组件。近年来,端到端框架不仅在非面向任务的聊天对话系统中流行起来,而且在面向任务的对话系统中也很流行,但它们还远未完善。再比如在语义识别方面,需要分析句法,所以分析在对话系统、信息抽取、语法检查等方面起着非常重要的作用。最早的NLP研究工作是机器翻译。1949年,美国著名科学家WarrenWeaver先生首先提出了机器翻译的设计。1954年,基于韦弗“翻译即解码”的机器翻译思想,乔治城大学进行了著名的“乔治城实验”——首次使用IBM-701计算机完成了英俄文本的自动翻译;这一实验的成功,机器翻译正式登上了历史舞台。20世纪60年代,许多科学家对机器翻译进行了大规模的研究工作,耗资巨大;但他们显然低估了自然语言的复杂性,语言处理的理论和技术还不成熟,所以进展甚微。当时的主要方法是存储一个很大的字典,里面包含了两种语言翻译方法对应的词和词组。翻译的时候,是一一对应的。从技术上讲,它只是调整语言中相同项目的顺序。但日常生活中的语言翻译远非如此简单。很多时候,需要参考某个句子前后的意思,需要连接上下文才能正确翻译——这就是机器翻译技术难度如此之高的地方。大约从20世纪90年代开始,NLP领域发生了翻天覆地的变化。这种变化有两个明显的特点:(1)对于系统的输入,要求开发的NLP系统能够处理大规模的真实文本,而不是只处理几个词条和典型的句子。只有这样,开发出来的系统才有真正的实用价值。(2)对于系统的输出,由于真正理解自然语言是非常困难的,因此系统不需要对自然语言文本有深入的理解,但必须能够从中提取有用的信息。同时,由于对“大规模”和“真实文本”的重视,以下两方面的基础工作也得到了重视和加强:(1)大规模真实语料库的开发。不同深度处理的真实文本的大规模语料库是研究自然语言统计特性的基础;没有这样的语料库,统计方法只能是无源之水。(2)规模大、信息量大的词典编纂。因此,规模在数万、数十万,甚至数十万词,信息丰富(如包含词的搭配信息)的计算机可用词典对NLP的重要性不言而喻。系统输入和输出的两大特点体现在NLP的诸多领域,其发展直接推动了计算机自动检索技术的出现和兴起。事实上,随着计算机技术的不断发展,基于海量计算的机器学习、数据挖掘、数据建模等技术的性能也越来越好。NLP之所以能够熬过“寒冬”并再次发展,也是因为计算机科学与统计科学的不断结合,使得人类乃至机器能够不断地从大量数据中发现和学习“特征”。然而,要真正理解自然语言,仅仅从原文中学习是不够的,我们还需要新的方法和模型。目前主要存在两个问题:一方面,迄今为止的语法仅限于对一个孤立句子的分析,缺乏系统的研究语境和会话环境对其的制约和影响。句子。指称、同一句话在不同场合或不同人的不同意思等问题,目前还没有明确的规律可循,需要加强语义学和语用学的研究,逐步解决。另一方面,人们理解一个句子不仅仅靠语法,还需要用到很多相关知识,包括生活知识和专业知识,这些知识是计算机无法存储的。因此,书面理解体系只能在有限的词汇、句型和特定话题范围内建立;只有在计算机的存储容量和运行速度有了很大的提高之后,才有可能适当扩大范围。由于语言工程和认知科学主要局限于实验室,数据处理可能是目前NLP应用场景最多的发展方向。事实上,自进入大数据时代以来,各大平台就从未停止过对用户数据的深挖。要提取有用的信息,仅仅提取关键词、统计词频等是远远不够的,还需要了解用户数据(尤其是语音、评论等)的语义。此外,利用离线大数据统计分析方法研究NLP任务是目前非常有前途的研究范式,尤其是Google、Twitter、百度等大公司在此类应用上的成功经验,引领当前大数据研究浪潮。NLP是为各类企业和开发者提供的文本分析和挖掘的核心工具,已广泛应用于电子商务、金融、物流、医疗、文化娱乐等行业客户的众多业务中。可帮助用户构建内容搜索、内容推荐、舆情识别与分析、文本结构化、对话机器人等智能产品,也可通过合作定制个性化解决方案。由于理解自然语言需要广泛的关于外部世界的知识以及运用和操作这些知识的能力,NLP也被视为解决强人工智能的核心问题之一,其未来普遍与人工智能的发展密切相关,尤其是模仿人脑的神经网络的设计。训练NLP文本解析AI系统需要收集大量的多源数据集,这对科学家来说是一个持续的挑战:他们需要使用最新的深度学习模型来模拟人脑中数百万甚至数十亿的神经元的行为通过对带注释的示例进行训练来不断改进。当今流行的NLP解决方案是预训练,它修改在未标记文本上训练的通用语言模型以执行特定任务;这个想法是,不是随机初始化模型的参数,而是训练一个任务以获得一组模型参数,然后用这组参数初始化模型,然后训练以获得更好的预测洞察力。我们现在已经进入了以互联网为标志的海量信息时代,而这些海量信息中的绝大部分是用自然语言表达的。一方面,相关的海量信息可以为计算机学习自然语言提供更多的“素材”;另一方面,也为NLP提供了更广阔的应用舞台。例如,搜索引擎作为NLP的重要应用,逐渐成为人们获取信息的重要工具,以谷歌、百度为代表的搜索引擎巨头应运而生;机器翻译也从实验室走进了寻常百姓家;中文输入法(如搜狗、微软、谷歌等)已成为电脑用户的必备工具;具有语音识别功能的电脑和手机也开始普及,帮助用户更有效地生活、工作和学习。现在,NLP领域已经有大量的人工标注知识,而深度学习可以通过监督学习获得相关的语义知识。这些知识和人类总结出来的知识应该有一定的对应关系,尤其是在一些浅层语义方面。.因为人工标注,本质上已经为深度学习提供了学习目标;只是深度学习可以不眠不休地学习,而且这种逐渐接近学习目标的过程可能远比人类总结过程更快更好。这一点似乎可以从谷歌DeepMind研究团队开发的围棋软件AlphaGo在短时间内拿下两位人类围棋高手的事实得到验证。深度学习在NLP中的应用非常广泛。可以说它横扫了NLP的所有应用,从低层的分词、语言模型、句法分析、词性标注、语音识别等,到高层的语义理解、语用解释、对话管理、知识问答等几乎所有方面都有深度学习模型,并取得了不错的效果。研究已经从传统的机器学习算法转向更具表现力的深度学习模型,例如卷积神经网络和递归神经网络。然而,目前的深度学习技术尚不具备理解和使用自然语言所必需的概念抽象和逻辑推理能力,未来在这方面的进一步研究仍有待开展。一段时间以来,互联网搜索引擎一直让人们使用会话语言和术语来在线搜索内容。Google云端硬盘用户现在可以使用此功能。用户可以搜索存储在GoogleDrive中的文件和内容,就像Google搜索对??Drive内置NLP的新支持一样。该功能使用户可以更轻松地使用常用短语查询和实际对话中使用的查询来找到他们正在寻找的内容。谷歌公司在在线和移动搜索、移动应用程序以及谷歌翻译等服务中广泛使用NLP;该公司在这一领域的研究是提高机器阅读和理解人类语言能力的更广泛努力的一部分。随着谷歌调整其算法,NLP应该会随着时间的推移变得更好。英国剑桥量子计算(CQC)最近宣布,他们通过利用自然语言的“固有量子”结构开辟了一个全新的可能应用领域。它的工作原理是将符合语法的句子翻译成量子电路,然后在量子计算机上执行生成的程序并实际执行问答。这是NLP首次在量子计算机上进行。使用CQC最先进的、平台无关的可重定向编译器t|ket??,这些程序在IBM量子计算机上成功执行并产生结果,实现“意义感知”和“语法感知”的整体突破"NLP这是计算机科学方向上有意义的一步——计算机科学家和计算语言学家自计算机时代初期以来一直追求的梦想。美国哈佛医学院的研究人员开发了一种借助NLP技术的工具,可以评估新冠肺炎(COVID-19)患者的病例、社交媒体和健康数据。他们带头努力寻找COVID-19的解决方案,方法是使用机器学习技术查看来自各种来源的数据和信息,包括患者记录、社交媒体和公共卫生数据。在NLP工具的帮助下,他们还可以搜索有关COVID-19病毒的在线信息并了解当前的爆发位置。此外,研究人员还利用NLP技术对新冠肺炎、药物和疫苗进行深入研究,包括临床诊疗、流行病学研究等。中国阿里巴巴达摩院NLP研究团队近期提出了一种优化模型StructBERT,可以让机器更好地掌握人类语法,加深对自然语言的理解。使用这个模型就像是在机器中内置了一个“语法识别器”,让机器在面对乱七八糟或不符合语法习惯的词句时,依然能够准确理解并给出正确的表达和反应,大大提高机器对单词和句子的理解。和整体语言理解能力。该技术已广泛应用于阿里旗下的阿里小米、蚂蚁金服、优酷等业务。阿里达摩学院的语言模型和阅读理解技术也用于行业赋能,推动AI技术在医疗、电力、金融等行业落地。据悉,StructBERT模型最近被评为全球最强大的NLP系统。根据市场分析机构MordorIntelligence的报告,2019年全球NLP市场价值109亿美元,预计到2025年将达到348亿美元,复合年增长率为21.5%。报告指出,深度学习架构和算法在过去几年中在市场格局中取得了令人瞩目的进步,语音分析解决方案正在主导这个市场,因为传统的基于文本的分析已不足以应对复杂的业务问题。总之,随着互联网的普及和海量信息的出现,自然语言处理作为人工智能领域的研究热点和关键核心技术,在人们的生活、工作和学习中发挥着越来越重要的作用,并将发挥在科学技术和社会发展中发挥着重要作用。在发展过程中发挥着越来越重要的作用。文/林峰,于丽(作者来自美国波士顿大学工学院和日本名古屋大学)