当前位置: 首页 > 科技观察

号称世界上最快的语法分析器,Python的高级自然语言处理库spaCy!

时间:2023-03-15 10:02:55 科技观察

spaCy是Python和Cython中的高级自然语言处理库,建立在一流的研究之上,并从头开始设计用于实际产品。spaCy自带预训练的统计模型和词向量,目前支持20多种语言的分词。它具有世界上最快的解析器、用于标记、解析和命名实体识别的卷积神经网络模型,以及与深度学习的集成。它是在MIT许可证下发布的商业开源软件。spaCy项目由@honnibal和@ines维护,但无法通过电子邮件获得个人支持。但开源者认为,如果公开分享,帮助将更有价值,更多人可以从中受益。(Github官方地址:https://github.com/explosion/spaCy#spacy-industrial-strength-nlp)SpaCy特点:世界上最快的语法分析器实体命名识别无损标记支持20多种语言预先训练统计模型和词向量易于与深度学习模型集成部分语音标注标签依赖分析语法驱动的句子分割可视化构建语法和NERString-to-hash映射更易于导出numpy数据数组高效的二进制序列化最快的部署速度强烈严格的评估准确性安装spaCypip使用pip,spaCy版本目前仅提供源码包。pipinstallspacy使用pip时,一般建议在虚拟环境下安装包,避免修改系统状态:venv.envsource.env/bin/activatepipinstallspacyconda经过努力终于重新加入了conda支持社区开发者。spaCy现在可以通过conda-forge安装:condaconfig--addchannelsconda-forgecondainstallspacy更新spaCyspaCy的一些更新可能需要下载新的统计模型,如果您运行的是spaCyv2.0或更高版本,则可以使用validatepipinstall-Uspacyspacyvalidate如果您训练了自己的模型,请记住训练和运行时输入必须匹配。更新spaCy后,建议使用新版本重新训练模型。下载模型从v1.7.0开始,spaCy的模型可以作为Python包安装。这意味着它们是应用程序的组件,就像任何其他模块一样。可以使用spaCy的下载命令安装模型,也可以通过将pip指向路径或URL来手动安装。加载和使用模型要加载模型,请在模型的快捷链接中使用spacy.load():如果您已经通过pip安装了模型,也可以直接导入它,然后调用其load()方法:支持旧版本如果如果您使用的是旧版本(v1.6.0或更低版本),您仍然可以使用python-mspacy.en.downloadall或python-mspacy.de.downloadall从spaCy下载并安装旧模型。.tar.gz存档也附加到v1.6.0版本,手动下载和安装模型,解压存档,将包含目录放入spacy/data,并通过spacy.load('en')或加载它spacy.load('de')加载模型。从源代码编译安装spaCy的另一种方法是克隆它的GitHub存储库,然后从源代码构建它。如果你想更改你的代码库,一种常见的方法是确保你有一个由Python发行版组成的开发环境,包括头文件、编译器、pip、virtualenv和git。编译器部分是最棘手的,如何执行此操作取决于您的系统。有关详细信息,请参阅Ubuntu、OSX和Windows上的说明。与通过pip进行常规安装相比,requirements.txt还额外安装了Cython等开发人员依赖项。有关更多详细信息和说明,请参阅有关从源代码编译spaCy的文档和快速入门小部件,以获取适用于您的平台和Python版本的正确命令,而不是上面的详细命令,您还可以使用以下结构命令,所有命令均假定虚拟环境位于目录.env中。如果使用的是其他目录,可以通过环境变量VENV_DIR进行更改,如VENV_DIR=".custom-env"fabcleanmake。Ubuntu通过apt-get安装系统级依赖:sudoapt-getinstallbuild-essentialpython-devgitmacOS/OSX安装最新版本的XCode,包括所谓的“命令行工具”。macOS和OSX预装了Python和git。与用于编译Python解释器的版本相匹配的VisualStudioExpress或更高版本的Windows安装。官方发行版是VS2008(Python2.7)、VS2010(Python3.4)和VS2015(Python3.5)。运行测试spaCy带有一个广泛的测试套件。首先,找出spaCy的安装位置:python-c"importos;importspacy;print(os.path.dirname(spacy.__file__))"然后在该目录中运行。标志--vectors、--slow和--model是可选的,并启用额外的测试:#确保您使用的是最新的pytest版本python-mpipinstall-Upytestpython-mpytest<