当前位置: 首页 > Linux

Solr集成IKAnalyzer中文分词器

时间:2023-04-07 01:25:09 Linux

前言官网:https://code.google.com/archi...IKAnalyzer2012FF版(即For4.0),API和功能不变,只是让它支持Lucene4.0和Solr4.0已经引入,让这部分的用户可以使用。如果你还是Lucene3.2-3.6用户,那么你只需要下载IKAnalyzer2012U6版。因为FF版本的API不兼容3.x。【IKAnalyzer安装包包含】:《IKAnalyzer 中文分词器 V2012 使用手册》(本文档)IKAnalyzer2012.jar(主jar包)IKAnalyzer.cfg.xml(tokenizer扩展配置文件)stopword.dic(停止词典)LICENSE.TXT;NOTICE.TXT(apache版权声明)它的安装部署很简单,在项目的lib目录下部署IKAnalyzer2012.jar;IKAnalyzer.cfg.xml和stopword.dic文件放在类根目录下(对于web项目,通常是WEB-INF/classes目录,与hibernate、log4j等配置文件相同)。1、下载并安装最新版本:IKAnalyzer2012#一定要下载FF版,因为用的是solr4.0以上的版本$wgethttps://storage.googleapis.com/google-code-archive-downloads/v2/代码。google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip#解压到IK2012目录,不覆盖相同文件$unzip-nIKAnalyzer2012_u6.zip-dIK2012#复制jar包到tomcat下的solr项目目录$cpIK2012/IKAnalyzer2012FF_u1.jar/opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/#创建类文件夹$mkdir/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes#复制IKAnalyzer.cfg.xml和stopword.dic到类文件夹$cpIKAnalyzer.cfg.xml/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/$cpstopword.dic/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/2。修改配置修改solrcore中的schema文件,默认位置:$vim/opt/solr-4.10.3/example/solr/collection1/conf/schema.xml添加如下配置:同时,把需要分词的字符串,设置为text_ik3.重启服务注意:如果之前创建过索引,需要更新删除之前的索引,分词后重新创建索引$/opt/tomcat-8.5.31/bin/shutdown.sh$/opt/tomcat-8.5.31/bin/startup.sh4。配置扩展词典1.默认使用IKAnalyzer分词器自带的词典进行分词。我们也可以自己配置IKAnalyzer分词器的扩展字典#修改IKAnalyzer.cfg.xml文件$vim/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml配置如下  IKAnalyzerextendedconfiguration    ext.dic;    stopword.dic;2。在classes下创建ext.dic配置字典(每行代表一个整体索引)$vim/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic配置如下:不要看我搞砸了,我只是索引哈哈哈我是第三行stopword.dic和ext.dic的编码方式是没有BOM的UTF-8。3.重启tomcat后测试