过去一周,Github上最火爆的项目是自然语言处理Python库spaCy,最近更新到2.0版本。SpaCy是一个基于自然语言处理研究创建的开源项目,旨在最终将其用于实际产品和解决方案中。2.0版增加了几个新功能,包括新的神经网络模型、对更多语言的支持和改进的文档。SpaCy的作者MatthewHonnibal在发行说明中写道,新版本使用最先进的深度学习技术更新了spaCy,使spaCy在可扩展的云计算工作流中运行变得更加容易。新版本包括13种神经网络模型,支持超过七种语言。它还为八种新语言(英语、德语、西班牙语、葡萄牙语、法语、意大利语、荷兰语和多语言NER)添加了alpha标记化支持。它使用bloom嵌入策略来支持小表中的大词汇表。核心神经网络模型有词性标签、依存标签和命名实体,小型模型只有上下文特定的标签向量,中型模型有词向量。对于此版本,大部分使用指南、API文档和代码示例都已重写。该文档包含有关自定义处理管道、可视化工具、培训教程、词向量和基于规则的匹配的信息。现在有一个spaCy101指南,其中包含重要概念的解释和插图以及库的特色摘要。自一周前更新到2.0版本以来,已经发布了2.0.3版本,修复了一些bug,并进一步更新了文档,增加了视频,更新了培训技巧和建议部分等。Github其他上周热门项目前五名(根据到Trending排行榜,感兴趣的可以直接在Github搜索项目名称获取详细信息):Git飞行规则:程序员使用Git的指南。如果出现问题,开发人员可以使用该项目来查看可以做什么。机器学习问题的最佳结果:顾名思义,SoTA可以解决所有机器学习问题。节点最佳实践:Node.js最佳实践列表JS代码到SVG流程图:用于将JS代码转换为SVG流程图的可视化库。Tensorflow:一个用于机器学习的开源软件库。
