当前位置: 首页 > 科技赋能

创新工场两篇论文入选ACL 2020,将中文分词数据推向新高度

时间:2024-05-20 01:24:07 科技赋能

近日,自然语言处理(NLP)领域顶级学术会议ACL正在召开。

令人兴奋的是,创新工场大湾区人工智能研究院的两篇论文入选。

这两篇论文都聚焦于中文分词领域。

它们是引入深度学习知识后的有益尝试。

他们将该领域广泛使用的各种数据集的得分提高到了近年来的新高。

它们在工业上也具有广阔的应用前景。

利用词性记忆网络改进中文分词通过自动分析知识的双向注意力联合中文分词和词性标注分词和词性标注是中文自然语言处理的基本任务,特别是在工业领域分词非常重要的场景。

直接需求,但目前还没有更好的集成解决方案,中文分词普遍面临歧义和未注册词的问题。

基于此,两篇论文分别提出了“键值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”,创造性地融合了外部知识(信息)进入分词和词性标注模型。

,有效消除了分词误导性的“噪音”,大大提高了分词和词性标注的效果。

两篇文章的作者分别是:华盛顿大学博士生、创新工场实习生田元和,创新工场大湾区人工智能研究院执行院长宋岩,科研合伙人张彤创新工场执行董事、创新工场CTO、人工智能工程研究院院长王永刚等人。

ACL(计算语言学协会)是自然语言处理领域最具影响力和活力的国际学术组织之一。

自2011年成立以来,已有58年的历史,每年夏天召开年会。

该领域的顶级学术会议。

与往年不同的是,由于新冠疫情的影响,ACL全部搬到了线上,但这丝毫没有削弱热度。

根据此前公布的数据,今年会议共收到2篇以上论文,其中包括长论文和短论文,录用率为25.2%。

在全球疫情冲击下,这是ACL历史上最大规模的会议。

创新工场的技术专家们也冒着时差连连熬夜参加会议。

利用记忆神经网络,中文分词的性能刷新到了历史新高。

中文分词的目的是在汉字序列中插入分隔符,将其切分为词。

例如,“我喜欢音乐”将被拆分为“我/喜欢/音乐”(“/”代表分隔符)。

由于其特殊性,汉语在分词时面临两个主要困难。

首先是模糊性问题。

由于中文存在大量歧义,一般分词工具在分句时可能会出错。

例如,“部分居民生活水平”的正确切分应该是“部分/居民/生活/标准”,但存在“分离”、“民生”等歧义词。

“他从小学学习计算机技术”,正确的分词是:他/从小学学习计算机技术,但也有歧义的“小学”一词。

二是未注册词问题。

未注册单词是指不在词汇表中或者模型在训练过程中没有遇到过的单词。

例如,经济、医学、技术等科学领域的专业术语、社交媒体上的新词或人名。

这类问题在跨领域分词任务中尤为明显。

对此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》本文提出了一种基于键值记忆神经网络的中文分词模型。

该模型利用了n元组提供的每个单词的构词能力(即由n个连续单词组成的序列,如“居民”是2元组,“生活标准”是4元组) ,通过增加(减少)权重来实现特定上下文中的歧义消解。

并且通过无监督的方法构建单词列表,可以实现未标记文本在特定领域的利用,从而提高未注册单词的识别率。

例如,在“部分居民的生活水平”这句话中,有多少种可能的词块?单个字可以组成一个词,如“人”;两个字符的组合可以形成一个单词,例如“居民”;甚至四个字组合可以组成一个词,例如“居民生活”。

“人民”→单字词“居民”→“民生”词尾→“居民生活”词首→根据构词能力找出该词中的所有词语组合。

找到所有这些可能的单词组合后,将它们添加到分词模型中的单词中。

通过神经网络,我们学习哪些单词更有助于完整表达句子的最终含义,然后分配不同的权重。

“部分”、“居民”、“生活”、“级别”等词语将被突出显示,而“分离”、“民生”等词语将被降级,以预测正确的结果。

键值记忆神经网络分词模型在句子“他从小学开始就在计算机技术中长大”,对于歧义部分“从小学”(有两种划分方式:“从/小学”和“从小学/学习”),模型可以为“从小”和“学习”分配较高的权重,并为错误的n元组——“小学”分配较低的权重。

为了测试该模型的分词效果,论文进行了严格的标准实验和跨域实验。

实验结果表明,模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的性能都达到了最好的结果(F值越高,性能越好)。

(注:所选的5个数据集是中文分词领域国际上唯一通用的标准数据集)创新工场大湾区人工智能研究院执行院长宋岩表示,与之前的模型相比结果发现,该模型在所有数据集上的性能都超过了之前的工作,“将在中文分词领域广泛使用的标准数据集上的性能带到了新高”。

与前人工作的对比在跨域实验中,本文使用网络Blog数据集(CTB7)进行测试。

实验结果表明,整体F值和未记录词的召回率都有了很大的提高。

“双通道关注机制”有效消除“噪音”误导。

第二篇论文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词和词性标注模型。

中文分词和词性标注是两个不同的任务。

词性标注是在已分词的文本中标记每个单词所属的词性,如动词、名词、代词、形容词等。

词性标注在后续句子理解中起着重要作用。

在词性标注中,歧义仍然是一个难题。

例如,“他想向全班报告书上的内容”,“报告”的正确切分和标签应该是“report_VV/book_N”。

然而,由于“report”本身也是一个常用词,因此一般工具可能会将其标记为“report_NN”。

利用句法知识进行正确的词性标注句法标注本身就需要大量的时间和人力成本。

在以往的标注工作中,利用外部自动化工具获取句法知识一直是主流方法。

在这种情况下,如果模型无法识别和正确处理带有噪声的句法知识,则很可能会被不准确的句法知识误导而做出错误的预测。

例如,在“他非常擅长赛马”这句话中,“马”和“上”应该分开(正确的注释应该是“horse_NN/上_NN”)。

然而,根据一般句法知识,有可能获得不准确的切分和句法关系,例如“马上”。

斯坦福大学自动句法分析工具的结果分为“立即”。

针对这一问题,本文提出一种基于双通道注意力机制的分词和词性标注模型。

该模型将中文分词和词性标注视为联合任务,可以集成地完成。

该模型分别对自动获取的上下文特征和句法知识进行加权,以预测每个单词的分词和词性标签。

不同的上下文特征和句法知识在各自的注意力通道中进行比较和加权,以识别特定上下文中的不同上下文。

上下文特征和句法知识的贡献。

这样,可以识别不准确且对模型预测贡献不大的上下文特征和句法知识,并分配较小的权重,从而防止模型被这些噪声信息误导。

基于“双通道注意力机制”的分词和词性标注即使自动获取的句法知识不准确,模型仍然可以有效地识别和利用这些知识。

例如,将前面带有歧义且句法知识不准确的句子(“他立即非常擅长功夫”)输入到双通道注意力模型中后,得到了正确的分词和词性标注结果。

分词和词性标注示例为了测试模型的性能,论文在通用领域和跨领域进行了实验。

一般现场实验结果表明,该模型在5个数据集(CTB5、CTB6、CTB7、CTB9、Universal Dependency)中的性能(F值)超过了之前的工作,也显着超过了斯坦福大学的CoreNLP工具,以及伯克利的语法分析器。

即使在不同于CTB词性标注规范的UD数据集中,模型仍然可以吸收不同标签带来的知识,并利用这些知识取得更好的结果。

该模型在所有数据集上均优于之前的工作CTB5(CTB5是最常用的中文分词和词性标注数据集)。

在跨领域实验中,与斯坦福大学的CoreNLP工具相比,该模型也有近10个百分点的提升。

跨领域分词实验(会话测试集)的结果主动引入和区分知识,实现中文分词技术的突破。

中文分词在我国科研领域已有数十年的历史。

最初的中文分词是基于词典构建的,词典的质量将直接影响到最终分析的效果。

如果字典中没有新单词,模型就无法区分生与死。

这种方法的局限性在于字典和分词之间总是存在差距。

虽然字典可以编得很全面,但是在处理分词的时候,因为每个句子都有上下文,所以经常会出现很多问题。

不同的切分方法无法有效指导当前上下文中的分词结构。

2000年以来,分词方法出现了新的突破。

研究人员提出了一种标记方法。

通过标记每个单词的开头、结尾和中间,无需构建字典,大大提高了未注册单词的召回效果。

这一年左右,深度学习和神经网络开始广泛应用于中文分词。

标注模型由之前的浅层学习变成了深度学习,但算法的本质没有改变,所以改进效果并不大。

近两年来,学术界开始研究如何将外部知识和信息加入到标注过程中。

创新工场的这两篇文章就是走的这条路,利用记忆神经网络记录对分词结果有影响的n元组,??并引入对词性标注有影响的句法知识,将分词结果与自动获得的知识。

综合起来,它不仅利用了神经网络的优势,还利用了知识的优势,实现了分词技术微小而有效的改进和突破。

宋岩表示,“从技术创新的角度来看,我们的贡献主要包括两点。

第一,基于现有技术,我们建立了集成模型框架,采用无监督方法构建词汇表,将集成知识(信息)融入其中。

,并利用更高层次的句法知识来帮助词性标注,具有‘他山之石可以攻玉’的效果。

” “二是主动吸收和区分不同的外部知识(信息)。

通过键值记忆神经网络和双通道注意力机制进行动态权重分配,可以有效区分知识,区分哪些知识是有效的,哪些是有效的”虽然这些知识是自动获取的,不准确,但它并不准确,通过有效的使用,你总是可以收集到一些有用的信息,如何实现模型的主动吸收和辨别。

”据了解,今年的ACL会议总共100%是在分词领域。

共收录18篇论文,创新工场人工智能工程院2篇论文同时入选,这也表明ACL官方对此贡献的认可。

具有跨领域分词能力,提高行业应用效率。

中文分词和词性标注是最底层的应用,对于后续的应用和任务处理非常重要。

例如,对于文本分类、情感分析、文本摘要、机器翻译等,分词是不可或缺的基础“组件”。

宋岩表示,这项研究的目的主要是拓展其在工业场景中的应用。

正确的分词可以平衡公司应用开发的效率和性能,同时方便人工干预和(前)后处理。

这也是创新工场人工智能工程院的努力之一。

工程院成立于2019年9月,宗旨是连接科技创新与产业赋能,充当科学研究与产业应用的桥梁,为产业变革业务流程、提高经营效率。

工程院下设北京总部、南京研究院和大湾区研究院。

大湾区研究院还设立信息感知与理解实验室,重点开展自然语言处理(NLP)领域的研究。

执行院长宋岩本人在NLP领域拥有超过15年的科研经验。

创新工场人工智能工程院架构图 “用在工业场景时,跨领域的模型能力是非常直接的需求。

”宋岩表示,某个领域的训练模型很可能需要应用到其他领域。

“当新领域缺乏数据,或者新领域只有少量未标记数据时,如何实现模型的冷启动,仍然是一个巨大的挑战。

如果我们能够利用外部知识来提高模型的性能,我们可以有效地回忆起大量新领域中未出现过的新词,例如搜索引擎的广告系统最初在特定的情况下训练其分词模型。

但是当进入一个新的领域,比如新闻领域、医疗领域或者体育领域时,效果往往会大打折扣,甚至经常出错。

广告系统进入了一个新的领域,不需要额外的数据就可以进行更精准的分词和标注,从而有效地匹配广告和客户,大大提高了系统运行的效率和稳定性。

目前,两篇论文的工具都是开源的。