VicWord纯php分词主要更新:1.增加默认词库路径2.如果词库不存在则返回false,并抛出异常。github:https://github.com/lizhichao/VicWord分词说明包含3种分词方法getWord长度优先分词。最快的getShortWord细粒度分割。比最快的getAutoWord自动分段慢一点。三种分词结果效果最好的对比$fc=newVicWord('igb');$arr=$fc->getWord('北京大学生喝进口红酒,北大生活区喝进口红酒');//北大|Raw|Import|RedWine|,|in|PekingUniversity|生活区|Drink|Import|RedWine//$arr是数组各单元的结构[词,词位,词性,这个词是否被收录在字典里]这里只列出词$arr=$fc->getShortWord('北京大学生喝进口红酒,在北大生活区喝进口红酒');//北京|高校|学生饮|进口|红酒|,|In|Beijing|University|Life|areadrink|import|redwine$arr=$fc->getAutoWord('北京大学生喝进口红酒,北大生活区喝进口红酒');//北京|大学生|饮料|进口|红酒|,|在|北大|生活区|饮料|进口|红酒//对比//qq的分词http://nlp.qq.com/semantic.cgi#page2//百度的分词http://ai.baidu.com/tech/nlp/lexical分词速度机器阿里云Intel(R)Xeon(R)Platinum8163CPU@2.50GHzgetWord140wwordspersecondgetShortWord138wwordspersecondgetAutoWord40wwordspersecond百度百科上的测试文本5000词文本的副本
