去年,图像生成模型开始流行。一场群众性的艺术狂欢过后,版权问题接踵而至。DALL-E2、Imagen、StableDiffusion等深度学习模型的训练都是在上亿数据上进行训练,根本无法摆脱训练集的影响,而是一些完全由训练集生成的图像?如果生成的图像与原始图像非常相似,谁拥有版权?近日,来自谷歌、Deepmind、苏黎世联邦理工学院等多家知名高校和企业的研究人员联合发表论文。他们发现扩散模型确实可以记住训练集中的样本,并在生成过程中重现它们。论文链接:https://arxiv.org/abs/2301.13188在这项工作中,研究人员展示了扩散模型如何在其训练数据中记住单个图像,并在生成图像时将其恢复生机。我们提出了一个生成和过滤管道,从最先进的模型中提取一千多个训练示例,涵盖人物照片、商标的公司徽标等。并且还在不同环境中训练数百个扩散模型,以分析不同的建模和数据决策如何影响隐私。总体而言,实验结果表明,扩散模型在训练集上的隐私保护程度远低于之前的生成模型(如GAN)。我记得,但我不记得太多了。去噪扩散模型(denoisingdiffusionmodel)是最近兴起的一种新型生成神经网络。它通过迭代去噪过程从训练分布中生成图像,这比以前常用的GAN或VAE模型更有效。好,而且更容易扩展模型和控制图像生成,因此迅速成为各种高分辨率图像生成的主流方法。尤其是OpenAI发布DALL-E2之后,扩散模型迅速风靡整个AI生成领域。生成扩散模型的吸引力源于它们合成表面上与训练集中的任何东西都不同的新图像的能力,事实上,过去的大规模训练工作“没有发现过度拟合的问题”,而隐私敏感领域(隐私敏感域)研究人员甚至提出,扩散模型可以通过合成图像来“保护真实图像的隐私”。然而,这些工作依赖于扩散模型不会记忆和重新生成训练数据的假设,否则会违反隐私保证并导致模型泛化和数字伪造等诸多问题。但是,这是事实吗?要判断生成的图像是否来自训练集,首先需要定义什么是“记忆”。以前的相关工作主要集中在文本语言模型上。如果模型能够从训练集中逐字逐句地恢复出一个逐字序列,那么这个序列就称为“检索”和“记忆”;但由于这项工作是基于高分辨率图像,所以不适合逐词匹配记忆定义。下面是基于研究人员定义的图像相似性度量的记忆。如果生成的图像x与训练集中多个样本之间的距离小于给定的阈值,则认为该样本是从训练集中得到的,即EideticMemorization。然后,一个两阶段的数据提取攻击(dataextractionattack)方法:1.生成大量图像第一步简单但计算量大:使用选择的提示作为输入以黑盒方式生成图像。研究人员为每个文本提示生成了500张候选图像,以增加发现记忆的几率。2.进行MembershipInference,根据训练集的记忆标记出疑似生成的图像。研究人员设计的成员推理攻击策略基于以下思想:对于两个不同的随机初始种子,扩散模型生成的两幅图像相似概率很高,可以认为是在距离度量。提取结果为评估攻击,研究人员从训练数据集中选择了350,000个重复次数最多的示例,并为每个线索生成了500张候选图像(总共生成了1.75亿张图像)。首先对所有这些生成的图像进行排序,以识别那些可能通过根据团中图像之间的平均距离记忆训练数据而生成的图像。然后将这些生成的图像与训练图像进行比较,并将每幅图像标记为“已提取”和“未提取”,最终从训练集中找出94张疑似被提取的图像。通过可视化分析,将前1000张图片人工标记为“已记忆”或“未记忆”,发现13张图片是复制训练样本生成的。从P-R曲线来看,这种攻击方式非常准确:在1.75亿张生成图片中,可以识别出50张记忆图片,误报率为0;并且所有基于记忆生成的图像都可以以大于50%的精度提取为了更好地理解记忆是如何以及为什么发生的,研究人员还在CIFAR10上训练了数百个较小的扩散模型,以分析模型精度、超参数、增强和隐私影响重复数据删除。扩散与GAN与扩散模型不同,GAN没有经过明确的训练来记忆和重建它们的训练数据集。GAN由两个相互竞争的神经网络组成:生成器和鉴别器。生成器还接收随机噪声作为输入,但与扩散模型不同的是,它必须在一次前向传递中将这种噪声转换为有效图像。在训练GAN的过程中,判别器需要预测图像是否来自生成器,而生成器需要改进自己来欺骗判别器。因此,两者之间的区别在于GAN的生成器仅使用关于训练数据的间接信息(即使用来自鉴别器的梯度)进行训练,而不是直接接收训练数据作为输入。从不同的预训练生成模型采样100万无条件生成的训练图像,然后将FID排序的GAN模型(lowerisbetter)放在最上面,diffusion模型放在下面。结果表明,扩散模型比GAN模型记住更多,更好的生成模型(较低的FID)往往会记住更多的数据,即扩散模型是图像模型中隐私最少的形式,其泄露的训练数据为是GAN的两倍多。并且从以上结果也可以发现,现有的隐私增强技术并没有提供可接受的隐私性能权衡。如果要提高生成质量,就需要在训练集中记住更多的数据。总的来说,这篇论文强调了日益强大的生成模型与数据隐私之间的紧张关系,并提出了关于扩散模型如何工作以及如何负责任地部署它们的问题。版权问题从技术上讲,重构是扩散模型的优势;但从版权的角度来看,重构是软肋。由于扩散模型生成的图像与训练数据之间的过度相似,艺术家们对自己的版权产生了各种争论。例如,禁止AI使用自己的作品进行训练,对已发表的作品添加大量水印等;而StableDiffusion也宣布下一步计划只使用包含授权内容的训练数据集,并提供艺术家退出机制。NLP领域也面临着这个问题。有网友表示,自1993年以来,已经发布了数百万字的文字,包括ChatGPT-3在内的所有AI都是在“被盗内容”上训练的。生成模型是不道德的。世界上虽然抄袭现象层出不穷,但对于普通人来说,抄袭只是一条捷径;对于创作者来说,被抄袭的内容是他们辛勤的劳动成果。扩散模式在未来是否还有优势?
