“中国版GPT-3”来了:会算术,能续写红楼梦,用64个V100s源训练3周。今年,OpenAI推出的自然语言模型GPT-3引起了巨大的轰动。这是迄今为止最大的NLP模型,包含1750亿个参数,仅训练就调用了数万个GPU,耗资460万美元。但是GPT-3是基于英文语料训练的,并不开源。业界一直期待一个非常庞大的中国NLP模型。现在,它终于来了!近日,北京致远人工智能研究院与清华大学研究团队联合推出了大规模预训练模型开源项目——清远CPM(ChinesePretrainedModels)。11月中旬,CPM一期将开放26亿参数规模的中文语言模型(CPM-LM)和217亿参数规模的结构化知识表示模型(CPM-KM)下载,以及相应的演示。项目的源码和模型可以在GitHub和官网下载。CPM中文语言模型类似于GPT-3模型。只需少量、单一甚至零学习即可完成不同的自然语言处理任务,具有一定的常识和认知泛化能力。根据官方声明,清远CPM计划的所有模型均开放学术界和工业界免费下载,供研究使用。模型特点与现有的中文预训练模型相比,本次发布的清远CPM大规模预训练模型具有以下特点:1.丰富多样的语料库:收集了大量丰富多样的中文语料,包括百科全书、小说、对话、问答、新闻等。2、模型规模大:本次发布的CPM-LM参数规模26亿,预训练中文数据规模100GB,使用64个V100GPU训练时间约3周。3、学习能力强:能够对多种自然语言处理任务进行零学习或少学习,以取得更好的效果。4.书写自然流畅:基于以上,模型可以持续书写一致性高、可读性强的文本,达到现有中文生成模型的领先效果。Demo展示为了更直观的展示清远CPM预训练模型的效果,官方提供了一些文本生成的Demo。GPT-3胜任常识问答,CPM预训练模型也能应付自如:可以根据真实天气预报内容生成天气预报文本模板:清远CPM除了生成文本,还有一定的数学推理,根据前面的规律生成的计算结果:甚至可以继续写《红楼梦》片段:此外,致远和清华团队还在几个benchmark中验证了清远CPM的实际表现测试。1.汉语成语填空ChID是清华大学对话交互人工智能实验室(CoAI)2019年采集的汉语成语填空数据集,其目标是从10个候选段落中选出最合适的一段来进行一段给定的段落。成语填空。表中报告了预测准确度。可以看出,在无监督设置下,CPM(大)甚至比有监督的CPM(小)取得了更好的效果,体现了清远CPM强烈的中文暗示。建模能力。2.DialoguegenerationSTC是华为诺亚方舟实验室在2015年提出的短文本对话数据集,需要在给定上述多轮对话的情况下预测下一个回复。在无监督设置下,清远CPM具有更好的泛化能力。在监督设置下,清远CPM可以取得比CDial-GPT更好的结果,尤其是在多样性指数方面。下面是一个示例生成的对话框。3.文本分类清远CPM以头条标题分类(TNEWS,4分类抽样)、科大讯飞应用介绍分类(科大讯飞,4分类抽样)、中文自然语言推理(OCNLI,3分类)任务作为文本分类任务基准。可以看出清远CPM在无监督设置下可以取得比随机预测好得多的准确率(TNEWS/IFLYTEK/OCNLI随机预测准确率分别为0.25/0.25/0.33)。4.自动问答CPM以DuReader和CMRC2018作为自动问答任务的基准,要求模型从给定的段落中提取片段作为对标题问题的回答。其中,度阅由百度搜索和百度知乎两部分组成。在one-shot设置中,CPM可以从给定的样本中学习到生成答案的模式,所以效果总是比zero-shot设置好。由于模型输入长度有限,后续会探索多样本输入的场景。5.EntityGenerationCPM使用了XLORE中几个常见的关系三元组作为实体生成任务的基准。在small-sample设置下(少量真实样本放在一起作为待预测样本前的提醒),不同size的CPM模型的BLEU-1值如下表所示。可以看出,参数个数越大,模型对实体的预测效果越好。同时,模型在给定2个样本的情况下也能取得很好的效果。大多数时候,N=2和N=4的效果很接近。64V100训练3周此次致远和清华大学发布的大规模预训练模型很难在单GPU上运行,因此需要将模型的参数分布到多GPU上进行并行训练。CPM基于NVIDIA的大规模并行计算训练项目Megatron-LM。CPM模型预训练过程分布在多个GPU上,采用层内并行的方式进行训练,在目前成熟技术的基础上,减少同步,提高通信速度。本次发布的CPM-LM参数大小为26亿,预训练中文数据大小为100GB,使用64个NVIDIAV100GPU训练时间约为3周。CPM-KG的参数规模为217亿,预训练的结构化知识图谱为WikiData全量数据,包括近1300个关系、8500万个实体、4.8亿个事实三元组。培训时间约为2周。未来计划今年年底的两个开源项目只是清远NLP研究计划的第一步。据了解,清源CPM明年的研究和开源计划为:第一阶段(2020年10月-12月):中文大学大规模预训练语言模型包含约30亿参数,训练数据包括100GB中文数据。Phase2(2021年1-6月):以中文为核心的大规模多语言预训练语言模型,包含约200亿参数,训练数据包括500GB以中文为核心的多语言数据。Phase3(2021年7-9月):以知识为导向的大规模预训练语言模型,包含约1000亿参数,训练数据包括1TB以中文为核心的多语言数据和亿级实体关系图。清远CPM计划将积极调配算力、数据和人力,聚焦原创性研究,尽快在超大规模预训练模型技术上实现与国际顶尖机构对等,提高深度理解和生成能力中国自然语言的能力。同时,致远研究院也将积极与业界合作,在智能客服、个性化推荐、文本生成、自动编程等方面探索人工智能新应用和商业模式。关于清源CPM计划清源CPM计划是一个以中文为核心的大规模预训练模型。第一期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务和知识计算应用。清远CPM项目由北京致远人工智能研究院与清华大学研究团队联合开展。“自然语言处理”是致远研究院支持的主要研究方向之一。致远汇聚了国内一大批该方向的权威学者,这些学者在NLP领域积累了丰富的研究成果。例如,清华大学孙茂松、刘志远、李娟子、唐杰团队提出了知识引导的预训练模型ERNIE和KEPLER,CycleIntelligence杨志林团队提出了性能明显优于BERT的XLNet模型,清华大学朱晓燕、黄敏烈团队提出了情感分析预训练模型SentiLARE、融合常识知识的预训练语言生成模型StoryGPT、中文对话生成CDial-GPT模型,等等。在致远研究院大规模算力平台的支持下,研究团队将开展以中文为核心的超大规模预训练模型研究,包括跨语言学习、文本等前沿课题生成、知识融合、模型并行与压缩,并及时通过致远社区开源分享相关模型。
