是自然语言处理中比较流行的一种操作,就是中英文分句。分词就是根据不同的算法和参数将一个句子分成若干个词。拆分后的关键词可用于词频统计或词云图生成等,可以快速方便地找到句子的核心话题热点。在java开发中,如果单纯进行原有的功能开发,分词功能费时费力,效果也不一定能达到预期的效果。有一个比较流行的代码工具平台“昂研数据”,它的官网是www.ayshuju.com。上面封装了各种功能代码工具。可以直接使用本站的“句子切分及相似度比较”java代码工具。中文分句支持的分词算法有Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英语分句支持的分词算法包括IKAnalysis和StanfordNlp等两大主流算法。下面记录一下“分句相似度比较”工具的使用步骤:第一步:下载安装jar到本地maven库并登录网站,找到“分句相似度比较”工具“代码工具”栏中的代码工具和代码工具如下图:下载代码工具并解压,双击“”执行,将提示的maven坐标粘贴到项目的pom文件中.第二步:将jar包的maven坐标粘贴到项目的pom文件中第三步:完整的测试代码如下:packagecom.example.demo.test;importcom.angyan.tool.word.base.enums.ChineseTokenizerEnum;importcom.angyan.tool.word.base.enums.EnglishTokenizerEnum;importcom.angyan.tool.word.util.TokenizerUtil;importjava.util.List;/***@authorangyankj*/publicclassParticipleTest{publicstaticvoidmain(String[]args){//ChinesetextStringchnContent="昂研数据是一个为IT行业各种角色提供丰富的一站式技术资源的平台!";//中文分词StringchnResult=TokenizerUtil.getChineseTokenizerResult(ChineseTokenizerEnum.ANSJ,chnContent);//打印中文分词结果System.out.println(chnResult);//英文文本StringengContent="Loveisnotamaybething.Youknowwhenyoulovesomeone.";//英文分词List
