当前位置：首页 > Linux

Solr集成IKAnalyzer中文分词器

时间：2023-04-07 01:25:09 Linux

前言官网：https://code.google.com/archi...IKAnalyzer2012FF版（即For4.0），API和功能不变，只是让它支持Lucene4.0和Solr4.0已经引入，让这部分的用户可以使用。如果你还是Lucene3.2-3.6用户，那么你只需要下载IKAnalyzer2012U6版。因为FF版本的API不兼容3.x。【IKAnalyzer安装包包含】：《IKAnalyzer 中文分词器 V2012 使用手册》（本文档）IKAnalyzer2012.jar（主jar包）IKAnalyzer.cfg.xml（tokenizer扩展配置文件）stopword.dic（停止词典）LICENSE.TXT；NOTICE.TXT(apache版权声明)它的安装部署很简单，在项目的lib目录下部署IKAnalyzer2012.jar；IKAnalyzer.cfg.xml和stopword.dic文件放在类根目录下（对于web项目，通常是WEB-INF/classes目录，与hibernate、log4j等配置文件相同）。1、下载并安装最新版本：IKAnalyzer2012#一定要下载FF版，因为用的是solr4.0以上的版本$wgethttps://storage.googleapis.com/google-code-archive-downloads/v2/代码。google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip#解压到IK2012目录，不覆盖相同文件$unzip-nIKAnalyzer2012_u6.zip-dIK2012#复制jar包到tomcat下的solr项目目录$cpIK2012/IKAnalyzer2012FF_u1.jar/opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/#创建类文件夹$mkdir/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes#复制IKAnalyzer.cfg.xml和stopword.dic到类文件夹$cpIKAnalyzer.cfg.xml/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/$cpstopword.dic/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/2。修改配置修改solrcore中的schema文件，默认位置：$vim/opt/solr-4.10.3/example/solr/collection1/conf/schema.xml添加如下配置：同时，把需要分词的字符串，设置为text_ik3.重启服务注意：如果之前创建过索引，需要更新删除之前的索引，分词后重新创建索引$/opt/tomcat-8.5.31/bin/shutdown.sh$/opt/tomcat-8.5.31/bin/startup.sh4。配置扩展词典1.默认使用IKAnalyzer分词器自带的词典进行分词。我们也可以自己配置IKAnalyzer分词器的扩展字典#修改IKAnalyzer.cfg.xml文件$vim/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml配置如下　　IKAnalyzerextendedconfiguration　　　　ext.dic;　　　　stopword.dic;2。在classes下创建ext.dic配置字典（每行代表一个整体索引）$vim/opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic配置如下：不要看我搞砸了，我只是索引哈哈哈我是第三行stopword.dic和ext.dic的编码方式是没有BOM的UTF-8。3.重启tomcat后测试

上一篇：linux下安装mysql_1

下一篇：mac安装docker，使用docker-compose安装Jenkins

Solr集成IKAnalyzer中文分词器相关文章