当前位置: 首页 > 科技观察

三个AI初创公司彻底改变了NLP

时间:2023-03-14 11:03:44 科技观察

深度学习在自然语言处理方面取得了惊人的进步。利用Explosion、Huggingface和JohnSnowLabs的最新创新。自然语言处理(NLP)一直是计算机科学家的长期梦想,可以追溯到ELIZA时代,甚至可以追溯到计算本身的基础(图灵测试,有人知道吗?)。NLP在过去几年经历了一场戏剧性的革命,过去的统计方法让位于基于深度学习或神经网络的方法。将深度学习应用于NLP已经产生了庞大、复杂、通用的语言模型,例如GPT-3,能够生成真正与人类书写无异的文本。例如,GPT-3解锁了微软新的“无代码”PowerApps平台中的功能,您可以在其中输入查询的自然语言描述,后端将生成代码(PowerFx表达式基于Excel语法)。NLP在整个企业中具有巨大的潜力,而不仅仅是像谷歌或微软这样的巨头将产品带到桌面上时。在本文中,我们将介绍三个不同的初创公司,从提供AI驱动的解决方案到提供构建块来构建您自己的自定义NLP解决方案。Explosion大多数在NLP圈子工作的开发人员都接触过spaCy,这是一个流行的PythonNLP库,但很少有人听说过Explosion,该公司由MatthewHannibal和InesMontani创立,开发了spaCy和商业注释工具Prodigy。作为多年来最重要的NLP工具包之一,spaCy轻松处理大量生产工作负载的能力是其与其他同类库相比的显着特征之一。如果您有一段时间没有使用spaCy,您可能会惊讶地发现它紧跟现代NLP技术的前沿,具有基于预训练的Transformer模型(例如BERT)的管道,能够集成来自PyTorch或TensorFlow,开箱即用地支持50多种语言。虽然spaCy是开源的,但Explosion还提供付费产品Prodigy,旨在成为数据科学家工具包中非常宝贵的一部分,能够对数据集进行富有表现力的、脚本化的注释,不仅与spaCy兼容紧密的交互循环,而且还具有全面支持注释图像、音频和视频。Prodigy提供了构建分类、转录、边界框等管道的方法。这些应该允许数据科学家在数据集的有效注释中发挥更积极的作用,降低构建丰富输入数据和创建更好模型的成本。Huggingface从一家提供基于Transformer的NLP模型和WriteWithTransformer网站的PyTorch库的公司,到如今Huggingface无所不能的NLP巨头,走过了漫长的道路。如今,Huggingface的Transformers库不仅是文本处理的事实标准,而且从发现新论文或技术到将其放入库之间的周转时间通常以天而不是周来衡量。HuggingfaceModelZoo已扩展为各种不同模型(包括域、语言、大小等主题)的模型中心,包括加速实现许多模型的托管推理API,以及易于使用API处理大量不同的模型。数据集。您会发现Huggingface已被数千家公司使用,从Grammarly等应用程序到Microsoft、Google和Facebook的研究用途。除此之外,Huggingface还为机器学习生态系统贡献了其他较小的库,例如最近的Accelerate库,它消除了在分布式机器集上训练大型模型的大部分麻烦。Huggingface也没有放慢速度。最近几个月,我们已经看到音频和图像模型被添加到平台中,随着Transformer架构继续在深度学习领域站稳脚跟,征服所有途径,Huggingface可能会走在前列。JohnSnowLabsJohnSnowLabs是SparkNLP的策展人,SparkNLP是一个开源NLP框架,运行在ApacheSpark之上,这也许不足为奇。在企业中非常受欢迎,您会发现它为公司中的各种NLP管道提供支持,用于命名实体识别(NER)、信息检索、分类和情感分析等应用程序。与spaCy一样,它已经进化以适应NLP中的新范式,并标配大量深度学习模型(超过700个!)和400多个用于各种不同应用程序的管道。它还利用ApacheSpark的可扩展性,比许多竞争对手更容易进行分布式部署。有趣的是,JohnSnowLabs有三款基于SparkNLP构建的付费产品,其中两款主要针对医疗保健行业,一款也主要针对该领域,但可以用于其他领域。他们提供HealthcareAI,一个运行在Kubernetes之上的托管平台,用于医疗保健分析和研究,以及一组SparkNLP的附加包,允许临床实体识别和链接、医学概念提取和文本去识别化等方法另一个付费产品是SparkOCR,它号称是同类产品中最好的OCR解决方案。它捕获区域并以DICOM格式和PDF格式输出的能力略微偏向于医疗领域,但有一套更通用的图像处理、去噪、去歪斜管道,当然也可以与SparkNLP集成,轻松生成可扩展的管道,End可以从任何给定的输入图像执行端到端的NER提取。SparkNLP中有很多嵌入式知识,而在医疗保健方面,JohnSnowLabs似乎比其他大型NLP库提供商更有优势!NLP的下一步是什么在接下来的几个月里,人们可能会在NLP领域看到什么?我认为有更多相同的,但更大;万亿参数模型现在在谷歌、微软和Facebook等公司越来越重要。虽然GPT-3目前锁定在OpenAI的API后面,但预计GPT-NeoX的开源“再创造”将在今年某个时候发布1750亿参数模型,将GPT-3的强大生成能力带到美丽的星球上的任何人。最后,我们可以期待研究人员继续在天平的另一端工作,努力让这些架构在更小的设备和更长的文档上运行得更快、更高效。您可以放心,所有这些研究的结果也将出现在Explosion、Huggingface和JohnSnowLabs的产品中。