当前位置: 首页 > Linux

linux-InstallingOpenCC(简繁中文转换)

时间:2023-04-06 01:29:28 Linux

最近在使用中文维基百科数据训练Word2Vec时,发现数据中包含大量繁体字,非常尴尬。这时候,我才知道OpenCC的强大。哈哈,本来打算直接使用python中的opencc模块,结果在安装编译opencc的时候遇到了各种错误。折腾了好久,终于安装成功了,但是文本处理效率很低。最终我选择在linux下直接安装OpenCC。处理效率确实安慰了我受伤的心——非常快,非常快。好了,总结一下OpenCC的安装方法,万一以后再用呢?主要参考了这篇博客:查看linux环境下是否安装了cmake和git。如果没有,请通过yum安装它。$yuminstallcmake$yuminstallgitcloneOpennCC开源项目OpennCC开源项目。$gitclonehttps://github.com/BYVoid/OpenCC编译OpenCC$cdOpenCC$make$makeinstall创建libopencc.so.2链接如果不知道libopencc.so.2的路径可以使用find/-名称libopencc。so.2搜索。$ln-s/usr/lib/libopencc.so.2/usr/lib64/libopencc.so.2通过查看OpenCC版本来判断OpenCC是否安装成功。$opencc--versiontestcase#繁体到简体$echo'公元前三世纪的欧洲希腊数学家'|opencc-ct2sGreekmathematicsofthethirdcenturyBCinEuclid#简体为繁体$echo'GreekmathematiciansofthethirdcenturyBCinEuclid'|opencc-cs2tEuclid,公元前三世纪的希腊数学家#可以通过以下方式直接转换繁体和简体文件$opencc-izhwiki_raw.txt-ozhwiki_t2s.txt-ct2s.json