1、jieba分词github地址:https://github.com/fxsjy/jieba“jieba”分词,可以说是github上最受欢迎的分词工具,支持自定义词典,支持多种分词模式,并立志成为Python中最好的中文分词组件。2、pkuseg分词github地址:https://github.com/lancopku/pkuseg-pythonpkuseg的特点是支持多种不同的分词领域,新闻、网络、医药、v旅游等领域的分词训练模型,相比其他分词工具,不仅可以自由选择不同的模型,还可以提供更高的分词准确率。3、FoolNLTK分词github地址:https://github.com/rockyzhengwu/FoolNLTKFoolNLTK分词基于BiLSTM模型训练,支持自定义词典。有人说是最准确的开源中文分词。不知道大家有没有试过呢?4.THULACgithub地址:https://github.com/thunlp/THULAC-PythonTHULAC是由清华大学自然语言处理与社会人文计算实验室开发的具有词性标注功能的中文词法分析工具包。能分析一个词是名词、动词还是形容词。使用我们整合的全球最大的人工分词词性标注中文语料库(含约5800万词)进行训练,模型标注能力强。该工具包标准数据集ChineseTreebank(CTB5)的分词F1值可达97.3%,词性标注的F1值可达92.9%,与该数据集上最好的方法不相上下。快点。和同事聊分词工具,很多还是用口吃的分词,配合自定义词典解决网上常用词。您使用的是哪种工具?
