本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。还在担心大语言模型“吞噬一切”,被虚假信息训练?在过去,这确实是训练NLP模型时值得担心的问题。现在,谷歌已经基本解决了这个问题。他们做了一个叫TEKGEN的AI模型,直接用“人类的话”来描述知识图谱,生成语料库,然后喂给NLP模型进行训练。这是因为知识图谱的信息来源往往是准确可靠的,并且会经过人工筛选和审核,所以质量是有保证的。目前,该研究已被NAACL2021录用。如何让AI用“人话”来描述知识图谱?谷歌用来描述知识图谱的TEKGEN模型,全称是TextfromKGGenerator(知识图谱文本生成器)。它会读出知识图谱中的所有单词,弄清楚它们之间的关系,然后用“人类的话”说出来。从下图来看,转换语句分为两步:首先,将关系图中的词按照逻辑排列;然后,添加一些单词,调整句子之间的逻辑关系,使它们成为一个完整的句子。为了实现这个功能,TEKGEN包括4个部分:三元组的生成器(包括主语、宾语和相关词)。将维基百科的知识图谱和维基百科的文字描述对应起来,生成训练数据集。T5的文本到文本生成器,用于将三元组转换为文本消息。实体子图创建者。它用于将三元组中的文本信息转换为句子。语义质量过滤器。该部分用于处理低质量输出,保证生成句子的质量。总体来说,用TEKGEN生成句子的过程是这样的:生成的句子可以用来安全地训练大型语言模型。这个生成的语料库由4500万个三元组生成,组合后的句子有1600万个句子。那么,用这个语料训练出来的NLP模型真的能取得更好的效果吗?“满分5分,人类给它4.3分。”首先,让我们看看几个连词成句的效果。从输入的词来看,只有主语、宾语和这两个词之间的关系。但TEKGEN似乎“悟”到了什么,很快将这些句子组合成了一个正常的句子。不仅时间、地点、所属单位分得清清楚楚,而且在逻辑上也符合我们平时所说的语序。那么,如果满分是5分,人类给AI的“图文转换”能力打几分呢?谷歌招募了一些志愿者来进行评估。结果显示,TEKGEN在“语义”和“流畅度”两方面的得分都在4.3分以上。当然,这里也使用了LAMA(语言模型分析)探针来评估用这个语料库训练的模型。在Google-RE和TREx这两个数据集上,预训练模型在各种任务上都取得了非常好的效果。也许,未来AI真的可以尝试高考语文的“图文转换”题:作者介绍论文第一作者,计算机博士生OshinAgarwal宾夕法尼亚大学系,研究方向为自然语言处理中的信息抽取。这篇论文是她在谷歌实习期间完成的。来自谷歌的HemingGe、SiamakShakeri和RamiAl-Rfou也为这项工作做出了贡献。目前,作者已经发布了这个用知识图谱生成的语料库。想训练NLP模型的朋友可以使用~论文地址:https://arxiv.org/abs/2010.12688用知识图谱生成的语料库:https://github.com/google-research-datasets/KELM-corpus
