近日,北京致远人工智能研究院与清华大学研究团队联合发布了大规模预训练语言模型CPM-LM中文为核心。参数规模26亿,预训练中文数据规模100GB。自2018年谷歌发布BERT以来,预训练模型逐渐成为自然语言处理(NLP)领域的主流。今年5月,OpenAI推出的史上最大AI模型GPT-3引起了热议。但是目前NLP领域的预训练模型大多是针对英语语言,使用英语语言数据作为训练数据,比如GPT-3:用于训练GPT-3的数据集。近日,北京致远人工智能研究院与清华大学研究团队联合启动了名为“QingyuanCPM(ChinesePretrainedModels)”的大规模预训练模型开源项目,旨在构建大规模的中文-中心模型。预训练模型。第一期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务和知识计算应用。所有模型都可以免费下载到学术界和工业界以供研究使用。清远CPM主页:https://cpm.baai.ac.cn/清远CPMGithub托管代码主页:https://github.com/TsinghuaAI/模型特点根据清远CPM主页介绍,发布预训练程序该模型具有以下特点:模型规模大:本次发布的CPM-LM参数规模达到26亿,预训练中文数据规模100GB,使用64块V100GPU,训练时间约3周;CPM-KG的参数规模是217亿,预训练的结构化知识图谱是WikiData的全量数据,包括近1300个关系,8500万个实体,4.8亿个事实三元组。使用8个V100GPU的训练时间约为2周。丰富多样的语料库:收集了大量丰富多样的中文语料库,包括百科全书、小说、对话、问答、新闻等多种类型。学习能力强:能够对多种自然语言处理任务进行零学习或少学习,并取得较好的效果。书写自然流畅:基于以上,模型可以持续书写高度一致和可读的文本,达到现有中文生成模型的领先效果。在模型训练方面,CPM模型预训练过程分布在多个GPU上,采用层内并行的方式进行训练,在目前成熟技术的基础上,减少了同步,提高了通信速度。硬件设施方面,共投入了64块V100显卡进行CPM模型的训练。预训练的CPM模型可用于促进许多下游中文任务,如对话、论文生成、完形填空和语言理解等。为了促进中文自然语言处理研究的发展,本项目还提供了文本生成CPM-LM(2.6B)模型的代码,可用于文本生成的本地测试,以及进一步研究零样本学习/少样本学习,详情见项目GitHub主页。模型性能清远CPM使用新闻、百科、对话、网页、故事等不同类型的中文语料数据进行预训练。在多个公共中文数据集上的实验表明,清远CPM可以在很少或没有样本的情况下取得更好的效果。汉语成语填空ChIDChID是清华大学对话交互人工智能实验室(CoAI)2019年采集的汉语成语填空数据集。填空。监督设置是指在ChID训练集上训练,然后在测试集上进行测试;无监督设置是指直接使用预训练模型进行测试,无需任何额外训练。具体方法是对段落中的候选进行逐一填充,计算填充段落的困惑度,选择困惑度最小的候选作为预测结果。表中报告了预测准确度。可以看出,在无监督设置下,CPM(large)甚至取得了比supervisedCPM(small)更好的结果,体现了清远CPM强大的中文语言建模能力。对话生成STCSTC是华为诺亚方舟实验室在2015年提出的短文本对话数据集,需要在给定上述多轮对话的情况下预测下一个回复。其中,CDial-GPT是清华大学对话交互人工智能(CoAI)实验室于2020年提出的中文对话预训练模型。用于衡量多样性的Dist-n度量的两个数是所有唯一的数N-Grams和所有N-Grams的比例。可以看出,在无监督设置下,QingyuanCPM具有更好的泛化能力,而在有监督设置下,QingyuanCPM可以取得比CDial-GPT更好的结果,尤其是在多样性指标上表现更好。文本分类清远CPM以头条新闻标题分类(TNEWS,采样为4类)、科大讯飞应用介绍分类(科大讯飞,采样为4类)、中文自然语言推理(OCNLI,采样为4类)任务作为文本分类任务的基准。具体方法是先输入分类样本,再输入“文章的类别是/介绍的类别/两句话的关系是”,要求模型直接生成标签,标签四个标签中概率最高的作为预测结果。在无监督设置下,清源CPM在文本分类任务上不同尺度的准确率如下表所示:清源CPM在无监督设置下可以取得比随机预测好得多的准确率(TNEWS/科大讯飞/OCNLI随机预测精度为0.25/0.25/0.33,分别)。自动问答CPM使用DuReader和CMRC2018作为自动问答任务的基准,要求模型从给定的段落中提取一个片段作为问题的答案。DuReader由百度搜索和百度知道两部分数据组成。在无监督设置下,不同尺度的CPM模型的表现如下表所示:单个样本是指在测试时从数据集中随机抽取一个正确的“(段落,问题,答案)”三元组,插在用于评估的样本,作为CPM模型生成答案的提示;zero-shot是指直接使用CPM模型来预测给定段落和问题的答案。在one-shot设置中,CPM可以从给定的样本中学习到生成答案的模式,所以效果总是比zero-shot设置好。由于模型输入长度有限,后续会探索多样本输入的场景。模型效果演示我们可以从下面的例子中观察到CPM预训练中文语言模型的效果。例如,在研究单个常识性问题的基础上,按规律提问并正确回答:根据上面的真实天气预报,继续报天气预报(不保证正确性):进行数学推理:甚至继续写《红楼梦》的片段:据我所知,未来清源CPM计划开源发布更大规模的预训练中文语言模型,以中文为核心的多语言预训练模型,以及集成大规模知识的预训练语言模型。
