识别文本(也称为自然语言推理)的任务包括确定是否可以通过另一个文本(假设)暗示或矛盾文本(假设)(假设)。机器学习(ML)系统,并在对纯文本输入的深度研究中进行了研究,它已将此类模型投资于结构数据(例如网站,表格)输入。能量少得多,数据库等。
但是,当有必要准确总结表单的内容并将其呈现给用户时,这一点尤其重要,识别文本尤其重要。
在发现EMNLP 2020的发现的“使用中级预训练手表”中,我们介绍了第一个用于表分析和自定义的预训练任务,以便该模型可以从较少的数据中学习,以便更快,更快地学习,以更快地学习更宽松的是基于我们的早期小吃模型。它是Bert Two -Way Transformer模型的扩展。它具有特殊的嵌入式功能,可以在表中找到答案。将我们的新预培训目标应用于TAPA可以在表中涉及的多个数据集上生成最新的技术级别。性能约为50%。
我们还系统地测试相关输入的选择,以提高效率,达到4倍速度和内存增长,同时保留92%的结果。不同任务和大小的所有模型都在GitHub存储库上发布。您可以在COLAB笔记本中尝试它们。
文本
当任务应用于纯文本表单数据的数据时,这更具挑战性。例如,考虑Wikipedia的表格,其中一些来自其相关形式的内容。评估表格的内容是否包含或矛盾的句子可能需要查看多个列和线条,并且可能执行简单的数值计算,例如平均值,和谐和差异。
遵循小吃使用的方法,我们将语句和表的内容编码在一起,并通过变压器模型,获得了语句所包含或反驳的单个概率。
因为培训示例中唯一的信息是二进制值(即“正确”或“不正确”),所以培训模型是了解该陈述是否包含挑战,并且突出了在深度学习中实现概括的困难,尤其是特别是,特别是当提供的训练信号稀缺时,请参见一个隔离或反驳的示例,该模型可以轻松地在数据中获得错误模式进行预测。对于审查,需要在原始培训数据之外成功应用模型。
预训练任务
通过为模型提供大量的准备好制品数据,可以将预训练任务用于“预热”模型。但是,前培训通常主要包括纯文本而不是表数据。实际上,TAPAS最初使用的是简单的掩码语言建模目标用于预训练,该目标不是为表数据应用而设计的。为了改善模型在表数据上的性能,我们引入了两个新的预训练双重分类任务,称为抗fact和综合。它们可以用作预训练的第二阶段(通常称为中级预训练)。
在反事实任务中,我们从Wikipedia获得了一个实体(人,地点或事物)的句子,这些实体也以给定的形式出现。实体成为另一个替代方案。为了确保陈述是现实的,我们选择了表格同一列中的实体中的替换。该模型经过训练以确定是否修改了该语句。此前培训任务包括数百万此类此类此类例子。尽管他们的推理并不复杂,但通常听起来很自然。
对于全面的任务,我们遵循类似于语义分析的方法。其中,我们使用一组简单的语法规则来生成语句。这些规则要求该模型了解基本数学操作,例如平均值之和(例如“总收入”)的总和(例如,“总收入”),或者或或或或orlearn如何在某些条件下使用元素(例如,“该国是””)。尽管这些陈述是人为的,但它们有助于改善模型的模型和逻辑推理能力。
结果
我们展示了前两个模型:LogicalFactchecker(LFC)和结构意识变压器(SAT)在基线TAPAS模型和包含域的文本中都成功。基线TAPAS模型显示了LFC和SAT的改进性能,但是性能是在预训练模型(TAPAS+CS)中,要达到新的和最高级的水平。对话设置中表的内容。包括CS目标以提高以前的最佳性能,这表明该方法还可以将性能总结为不仅包含文本的性能。
数据和计算效率
反对事实和合成预训练任务的另一个方面是,由于已针对二进制分类进行了调整,因此有必要在不进行罚款的情况下应用它们。(或否)。没有一个示例,TAPAS+CS模型与强大的基线表竞争。当仅包含10%的数据时,结果等效于先前的最新时间。
当试图使用这样的大型模型操作桌子时,一个普遍的问题是,他们的高计算要求使他们难以解决非常大的桌子。
为了解决这个问题,我们研究了是否可以激发可以启发的子集通过模型优化其计算效率以优化其计算效率。我们对不同的过滤输入方法进行了系统研究,并发现简单的方法是选择完整的列和主题语句的方法可以提供最佳结果。通过动态选择要包含输入令牌,我们可以以相同的成本使用更少的资源或处理较大的输入。挑战是,这不会失去重要的信息和损害准确性。
例如,上面讨论的模型使用512代币序列,这是变压器模型的正常限制(尽管最新效率方法(例如改革者或表演者)被证明在Zoom Input大小中有效)。我们在此处提出的列选择方法可以允许更快的训练,同时仍然可以在TABFACT上达到高精度。对于256个输入标记,我们的准确率很小,但是现在它可以预先培训且罚款型号,并将预测速度加倍。使用128个令牌卡,使用128个代币卡,该模型仍然比以前最先进的模型更好,并且加速度更高-4倍。
使用我们提出的“列选择方法”和新颖的预训练任务,我们可以创建表格分析模型,这些模型需要更少的数据和更少的计算能力来获得更好的结果。
我们在GITHUB存储库中提供新的模型和预培训技术,您可以在COLAB中尝试一下,以使此方法更易于使用,我们还共享了不同尺寸的模型,直到“微型”。我们希望这些结果能够这些结果将有助于促进更广泛的研究社区中的桌面推理的发展。
视频简介:从较少的数据到理性表格
更新说明:更喜欢更新微信公共帐户“ Rainy Night Blog”,然后更新博客,然后将其分发到一个接一个地分配给各种平台。如果您提前了解更多信息,请注意微信公共帐户“ Rainy Night Blog”。