当前位置: 首页 > 后端技术 > Python

Multi-criteria中文分词Multi-Criteria-CWS

时间:2023-03-25 19:33:40 Python

Multi-standard中文分词Multi-Criteria-CWS作者:宋彤彤自然语言处理(NLP)是人工智能中一个非常重要和具有挑战性的方向,自然语言处理第一步是分词,分词的效果直接决定和影响后续工作的效率。在我们的生活和工作中,每天都会产生大量的中文数据。因为中文和英文在单词和句子方面有很大的不同,比如英文单词之间用空格作为自然分隔符,而中文只有单词、句子和段落。“词”与“词”的界限模糊,中文分词相对复杂困难。因此,让我们讨论中文分词(CWS)。一、中文分词的现状中文分词是指将一个汉字序列分割成一个个的词。分词是将连续的词序列按照一定的规范重新组合成词序列的过程。现有的分词方法可以分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为机械分词方法。它将待分析的汉字字符串按照一定的策略与“足够大”的机器词典中的词条进行匹配。如果在字典中找到了某个字符串,则匹配成功(识别出一个词)。常用的字符串匹配方法有:前向最大匹配法(从左到右);反向最大匹配法(从右到左);最小分割(每个句子中切出的最少单词数);双向最大匹配(从左到右和从右到左进行两次扫描)。这类算法的优点是速度快,时间复杂度可以保持在O(n),实现简单,效果可以接受;但对歧义和未注册词的效果并不好。基于理解的分词方法通过让计算机模拟人对句子的理解来达到识别单词的效果。其基本思想是在分词的同时进行句法和语义分析,利用句法信息和语义信息来处理歧义。它通常包括三个部分:分词子系统、句法语义子系统和通用控制部分。分词子系统在总控制部分的协调下,获取词和句子的句法语义信息,判断分词歧义,即模拟人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的普遍性和复杂性,很难将各种语言信息组织成机器可以直接阅读的形式。因此,基于理解的分词系统还处于试验阶段。基于统计的分词方法是在大量已分词文本的前提下,利用统计机器学习模型学习分词规则(称为训练),从而实现对未知文本的分词。比如最大概率分词法和最大熵分词法。随着大规模语料库的建立和统计机器学习方法的研究和发展,基于统计的中文分词方法逐渐成为主流方法。主要统计模型有:N-gram模型(N-gram)、隐马尔可夫模型(HiddenMarkovModel,HMM)、最大熵模型(ME)、条件随机场模型(ConditionalRandomFields,CRF)等。在实际应用中应用中,基于统计的分词系统需要使用分词词典进行字符串匹配和分词,同时使用统计的方法来识别一些新词,即把字符串频率统计和字符串匹配结合起来,两者兼顾匹配分词的作用速度快、效率高,同时利用了无词典分词结合生词上下文识别和自动消歧的优点。2.Multi-Criteria-CWS基于统计的分词方法是基于大量已有的分词文本,即语料库。要做一个实用的分词工具,不仅需要高效的算法,大规模的语料库也是必不可少的。对于缺乏资金的研究团队和个人来说,往往只能得到sighan2005这样的少量小语料库。而且,这些语料库的标注规范互不兼容,不能混合训练。一些团队已经开始研究如何使用多方语料库来共同学习中文分词,例如Chen等人精心设计的对抗神经网络。2017年,它为每个语料提取了与分词标准相关或无关的特征,但表现并不理想。然后是HanHe等人提出的解决方案。2018年:受谷歌多语言翻译系统的启发,利用工程思想,用标签识别不同标准的数据集,从而可以识别出来自哪个标准的数据集,通过不同语料库之间的迁移学习,提高模型的性能,输出多-同时标准分词结果。3.实验和结果用于训练的模型是我们熟悉的Bi-LSTM+CRF。在具体的联合训练中,将人工引入的两个标识符视为普通字符,无需人工区分句子来源。这两个人为的标识符会提示RNN这个句子属于哪个分词标准,从而为每个字符生成的上下文表示受到分词标准的影响。测试时,这两个人工标识符起到规定所需分词标准的作用,但不计入准确率计算。论文在标准的sighan2005和sighan2008上进行了实验,在没有针对性调参的情况下取得了更高的效果(当时设备条件有限,所有数据集上都使用了同一套超参数)。所有分数都通过了官方评估脚本的验证。下图中的baseline是每个语料单独训练的结果,+naive是合并期望不加标识符的结果,+multi是论文联合训练方案的结果。这个实验中使用的特征非常小,只有字符和二元组。如果像最近流行的做法一样加入12nagrams和字典特征(wordembedding),可能会有进一步的改进。然而,论文的中心是一个简单的多标准分词方案,它侧重于简化和效率。它不追求高分而不是效率,所以没有使用这些特征工程方法。在sighan2008上的实验和结果这里不再赘述。4.总结这是一个简单的多标签中文分词方案,可以在不增加模型复杂度的情况下,将多个语料组合起来训练单个模型。这种方案虽然简单,但确实会带来显着的性能提升(尤其是对于像WTB这样的小型数据集)。但是,特别大的数据集几乎没有好处(例如MSR),留待以后研究。这里提供本文的项目地址和一些参考资料,有兴趣的同学可以进一步探索。项目地址:https://momodel.cn/workspace/5dc9114b269cf99a59565610?type=app**5。参考博客:http://www.hankcs.com/nlp/segment/multi-criteria-cws.html#respond博客:https://www.cnblogs.com/shona/p/11540353.html博客:http:///www.360doc.com/content/19/0305/12/99071_819341146.shtml博客:https://blog.csdn.net/qq_26598445/article/details/81298456论文:EffectiveNeuralSolutionforMulti-CriteriaWordSegmentation,2018,https://arxiv.org/abs/1712.02856关于我们Mo(网址:https://momodel.cn)是一个支持Python的人工智能在线建模平台,可以帮助您快速开发、训练和部署楷模。Mo人工智能俱乐部是由人工智能在线建模平台(网址:https://momodel.cn)的研发和产品团队发起,致力于降低人工智能开发和使用门槛的俱乐部。团队拥有大数据处理分析、可视化和数据建模经验,承接过多领域智能化项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析和人工智能技术,并以此促进数据驱动的科学研究。目前团队每两周(周六)在杭州举办一次线下沙龙,分享机器学习相关的论文和学术交流。我们希望把对人工智能感兴趣的各界朋友聚集在一起,继续交流,共同成长,推动人工智能的大众化和普及化。