当前位置: 首页 > 科技观察

人工智能是自给自足的!使用合成数据进行训练比真实数据效果更好

时间:2023-03-15 18:30:59 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。AI生成的图像太逼真了,为什么不能用来训练AI呢?别告诉我,现在还真有人在做这件事。来自香港大学、牛津大学和字节跳动的几位研究人员决定尝试是否可以使用高质量的AI来合成图像,以提高图像分类模型的性能。为了防止AI合成的图像过于单一或质量不稳定,他们还提出了几种提高数据多样性和可靠性的方法,以帮助AI合成更好的数据集(喂养AI的同类doge)。结果他们发现不仅效果好,有些AI经过训练,效果甚至比用真实数据训练还要好!目前,该论文已被ICLR2023接收。FeedingAI-generateddatatoAI作者讨论了三个方面:zero-shot、few-shot图像分类、模型预训练和迁移学习。并给出了提高数据多样性和可靠性的方法。零样本图像分类零样本图像分类任务是指没有任何目标类别的训练图像,只有目标类别的描述。作者首先提出了一种称为语言增强(LanguageEnhancement,LE)的方法来增强合成数据的多样性。具体来说,这个方法会给标签一个“扩展句”。如果原来的标签只是简单的“飞机”,那么“扩展句”后面的提示词就会变成“一架白色飞机盘旋在海滩和城市上空。飞机”。随后,为了保证合成数据的可靠性,采用了一种叫做剪辑过滤器(CLIPFilter)的方法,即过滤掉合成质量差的图片,以保证AI数据的质量。在17个数据集上,与之前表现最好的CLIP模型相比,相关尺寸模型有了显着提升(4.31%/2.90%),证明了合成数据的有效性。Few-shotimageclassificationFew-shotclassification任务通常只有非常少量(1-16)的目标类别图像。与零样本任务的不同之处在于添加了类别和任务特定的域信息。因此,作者决定利用域内数据(in-domain)的知识进行图像生成,即使用少量目标类别图像作为噪声叠加的初始状态(RealGuidance),进一步发展生成模型的能力。以进一步提高性能。预训练和迁移学习模型预训练任务是在大量数据上训练模型,并以训练好的模型作为“起点”,帮助提升下游任务的性能。作者使用合成数据对模型进行了预训练,并对数据量、数据多样性程度、预训练模型的结构、预训练方法进行了实验研究。最终发现:使用合成数据进行预训练。已经达到甚至超过了用真实数据进行预训练的效果。使用具有更大数据量和数据多样性的合成数据,可以获得更好的预训练效果。从模型结构和预训练方法的角度来看,基于ViT的模型(与基于卷积的模型相比)和自监督方法(与监督方法相比)更适合在合成数据下进行预训练。论文认为利用生成模型生成的合成数据来帮助图像分类任务是可行的,但也存在一定的局限性。例如,如何处理特定任务的领域差距和数据多样性之间的权衡,如何更有效地利用潜在无限的合成图像进行预训练,都是需要进一步解决的问题。作者介绍何瑞飞,香港大学@CVMILab博士生,师从祁小娟,毕业于浙江大学朱可真学院,研究方向为data-efficientlearning,vision-languagemodel,knowledge蒸馏,半/自监督学习。CVMILab正在招收计算机视觉与深度学习方向的博士生。有兴趣的小伙伴可以直接给老师发邮件!你能想出一种更有效的方法来使用AI合成图像进行预训练模型吗?欢迎有兴趣的小伙伴一起讨论~论文地址:https://arxiv.org/abs/2210.07574项目地址:https://github.com/CVMI-Lab/SyntheticData