本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。专注NLP的强大团队抱脸发布新资源!这次是Tokenizers帮助NLP处理,分词(分词)更快。在短短20秒内为Rust、Python和Node.js编码1GB的文本,在GitHub上拥有超过800颗星。不久前,这个团队还凭借技术实力获得了1500万美元的天使投资。速度快,功能多样在NLP模型训练中,分词和分词往往是一个瓶颈。Tokenizer可以训练新词汇并标记它。功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece的各种NLP处理模型。可以做所有的预处理:截断(Truncate)、填充(Pad)、添加模型需要的特殊标记。超快:在CPU上标记化1GB文本仅需20秒。目前适用三种编程语言:Rust/Python/Node.js使用示例github资源页面提供了在Python上使用Tokenizers的示例,简单设置即可使用:Tokenizers也可用于生词训练:虽然目前它只能在三种语言中使用:Python、JS和Rust。抱脸团队表示以后会不断升级,应用更多~抱脸团队最新动态抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目,获得了20Kstar。作为一家专注于自然语言处理的初创公司,他们的目标是开发一个可以使用文本、照片和表情符号的聊天机器人,称为社交AI。目前已完成三轮融资,融资总额达2000万美元。其中,在2019年底的A轮融资中,公司获得1500万美元,拟将员工人数增加两倍。公司目前还没有盈利。创始人ClementDelangue在获得A轮融资后表示,除了对话AI,公司正在打造通用的NLP技术,希望让NLP技术满足公司多样化的需求。传送门https://github.com/huggingface/tokenizers
