2020年,微软与OpenAI达成协议,微软将独家获得GPT-3源代码,此后OpenAI将不会像以前那样开放其GPT-3AI模型,而OpenAIGPT-1和GPT-2仍然是开源项目。为了打破OpenAI和微软在自然语言处理AI模型上的垄断,ConnorLeahy、LeoGao和SidBlack创立了EleutherAI,这是一个专注于AI对齐、扩展和开源AI研究的组织。近日,EleutherAI研究团队开源了一个基于GPT-3的自然语言处理AI模型GPT-J。GPT-J是基于GPT-3的自然语言处理AI模型,由60亿个参数组成。该模型在800GB开源文本数据集上进行训练,可与类似大小的GPT-3模型相媲美。该模型使用GoogleCloud的v3-256TPU和EleutherAI的ThePile数据集在大约五周内完成训练。GPT-J实现了与OpenAI在标准NLP基准测试工作负载上报告的67亿参数版本的GPT-3相似的精度。模型代码、预训练权重文件、Colab文档和演示网页都包含在EleutherAI的开源项目中。EleutherAI于2021年3月发布了27亿参数的GPT-Neo模型,这是他们首次实现类GPT系统。GPT-Neo内置于TensorFlow中,并通过MeshTensorFlow并行库在TPU上进行训练。该团队目前还在开发基于微软DeepSpeed的GPU解决方案GPT-NeoX;虽然代码是开源的,但目前无法访问任何模型文件。最新模型GPT-J使用新库Mesh-Transformer-JAX进行训练。该库没有使用像TensorFlow这样的特定深度学习框架,而是使用了Google的JAX线性代数框架。GPT-J提供了比Tensorflow更灵活、更快速的推理,模型的开发时间也比早期的举措少得多。与GPT-Neo模型相比,GPT-J训练效率提升125%。就多个Down-Streaming工作负载的零点性能而言,GPT-J是公开可用的TransformerLM中最好的。EleutherAI的开发者Komatsuzaki表示:“与TensorFlow和TPU相比,它允许更灵活和更快的推理。此外,该项目需要的时间明显少于其他大型模型。研究表明,JAX+xmap+TPU是用于快速大规模模型开发的完美工具集合。”开发者可以在GitHub上找到GPT-J的源代码和模型,并在EleutherAI官网找到互动演示。本文转自OSCHINA文章标题:媲美GPT-3?EleutherAI开源GPT-J文章地址:https://www.oschina.net/news/150972/eleutherai-open-sources-gpt-j
