在实际应用中,缺乏标记数据的数据通常是NLPER面临的最头痛。下面的图总结了数据增强的相关技术分类:
本文的文本根据上图介绍了各种方法的原理。然后在某些模型中介绍了数据增强的特定实现详细信息。
UDA还使用上述三种随机噪声注入方法。
在NLP模型中,作者提出了以下两种模式:WordMixup和senmixup。基本思想和线性计算都是相同的,但是像素矩阵变成垂直线矩阵或最后一个句子嵌入。
纸在这里
您可以通过段落,例如:中间 - >英国 - >或两个部分,例如:中 - >英国 - > day->效果通常更好,最好使用域的自我训练翻译模型。
它的想法是分析和生成原始句子的依赖树,转换使用规则并生成重写句子。例如,不改变句子含义的转换是将句子从活动语音转换为被动语音,反之亦然。
许多简历字段都使用GAN来增强数据,并且通常在NLP上对矢量词并进行对抗培训增加了干扰。
对于无增强方法的摘要:没有增强方法是使用各种方法来更改句子的令牌或句子模式而不更改标签,但是此更改可能会影响标签,例如:在情感分类任务中,良好的更改为良好的更改,标签肯定会更改。因此,可以引入标签信息来指导数据增强。
SO称为条件增强功能是将标签信息添加到模型中以引导生成数据。
现在您想使用深层模型,您需要大量数据,但这与现实是矛盾的。因此,当使用GAN或CVAE时,一种深层的模型,在解决小样本问题时需要更多的探索。
主要介绍三篇文章:
本文根据三种培训语言模型总结并比较了上述三种方法。他们自行,这个想法仍然具有巨大的潜力。
使用大量未签名数据来增强数据可以称为半普遍学习。这也是研究热点。它首先应用于简历字段。它也可以在NLP中发光和加热。
使用半佩维斯学习策略的使用,摘要是:如何在损失函数中添加与未包装数据相关的常规项目,以便该模型可以充分利用大量未关联的数据来连续迭代该模型并增强概括性模型的性能。
添加以下两种方法添加以下两种方法:
1.熵的最小化(集群假设,即半监视学习是基于以下假设:制定决策边界应尽可能稀疏(低密度区域),以避免将密集的样本数据分配给两个决定 - 制定边界。
2.一致性正则化:对于未签名的数据,我希望该模型在输入$ x $时会生成相同的输出分布。现在:
UDA是规律性的。下图是UDA模型框架。请注意一个点,左侧和右侧的模型M,仅在左侧仅BP,并且右侧的模型参数仅直接从左模型复制。在文本任务中,使用两种类型来输入$X $增加干扰:
此外,UDA还使用了一些辅助技术:
uda-codeuda纸
在本文中,作者设计了一种使用BERT模型增强数据增强的方法。有关详细信息,对于输入句子$ x $,第一个随机掩码删除某些令牌的一部分,然后使用BERT模型来预测作为候选人的顶级单词,然后随机选择一个令牌以最终结合到扩展的语料库中。其中两个具有特殊待遇:
本文用于增加样本。
纸
[参考:] NLP中数据增强的视觉调查允许机器自动生成文本数据NLP文本数据增强方法,简要描述了NLP中小样本困境的问题