AI画侵权实锤!扩散模型可能会记住你的照片,现有的隐私保护方法都是无效的。AI绘画侵权,实锤!最新研究表明,扩散模型牢牢记住训练集中的样本,生成时“依葫芦画瓢”。也就是说,在StableDiffusion生成的AI画作中,每一笔画的背后都可能存在侵权事件。不仅如此,经过研究对比,扩散模型从训练样本中“抄袭”的能力是GAN的两倍,而且生成的扩散模型越好,对训练样本的记忆能力就越强。这项研究来自谷歌、DeepMind和加州大学伯克利分校的团队。论文中还有一个坏消息,那就是针对这种现象,现有的隐私保护方法都失效了。消息一出,网友炸开了锅,该论文作者的相关推特转发量都快过千了。有人感叹:原来说盗用别人的版权成果也有道理!支持起诉!起诉他们!有人站在扩散模型一边议论纷纷:有网友将论文结果扩展到最流行的ChatGPT:现有的所有隐私保护方法都失效了。训练用的图片你背过,生成的时候最后“抄袭”了吗?训练集中的图片往往是从网海中截取的,有版权的,有商标的,还有一些是私人的,比如私人医疗X光片。为了弄清楚扩散模型是否能够记忆和再生个体训练样本,研究人员首先提出了“记忆”的新定义。一般来说,记忆的定义侧重于文本语言模型。如果能够提示模型从训练集中逐字逐句地恢复出一个序列,则说明这个序列已经被提取并记忆了。相比之下,研究团队根据图像相似度来定义“记忆”。不过,该团队也坦言,“内存”的定义是保守的。例如,左边的图像是通过StableDiffusion生成的“奥巴马的照片”。这张照片与右侧任何特定的训练图像都不相似,因此不能将此图像算作是从记忆中生成的。但这并不意味着StableDifusion生成新的可识别图像的能力不会侵犯版权和隐私。接下来,他们提取了包括个人照片和公司标书在内的1000多个训练样本,然后设计了一个两阶段的数据提取攻击。它通过使用标准方法生成图像,然后标记那些超过人类推理评分标准的图像来实现这一点。将这种方法应用于StableDiffusion和Imagen,该团队提取了100多个接近或相同的训练图像副本。既有可辨认的个人照片,也有商标标识,经查,大部分是有版权的。然后,为了更好地理解“记忆”是如何发生的,研究人员从模型中采样了100万次,并在CIFAR-10上训练了数百个扩散模型。目标是分析模型准确性、超参数、增强和重复数据删除中的哪些行为对隐私有影响。最后得出以下结论:第一,扩散模型比GAN有更多的内存。但扩散模型也是所评估图像模型中隐私性最低的,泄漏的训练数据是GAN的两倍多。此外,更大的模型可能会记住更多的数据。顺着这个结论,研究人员还研究了20亿参数的文本-图像扩散模型Imagen。他们尝试抽取分布外得分最高的500张图像,让它们作为训练数据集中的样本,结果发现它们都被记住了。相比之下,应用于稳定扩散的相同方法没有识别出任何记忆行为。因此,Imagen在复制和非复制图像上不如StableDifusion私密。研究人员将原因归结为Imagen使用的模型比StableDifusion的容量更大,因此它能记住更多的图像。此外,更好的生成模型(较低的FID值)存储更多数据。换句话说,随着时间的推移,相同的模型会泄露更多的隐私并侵犯更多的版权。(GAN模型按FID排序,FID值越低越好。)通过训练模型,团队发现增加效用会降低隐私,简单的防御(如重复数据删除)不足以完全解决内存打击问题。因此,隐私增强技术无法提供可接受的隐私实用性权衡。最终,该团队对那些训练扩散模型提出了四点建议:建议对训练数据集进行去重并尽量减少过度训练;建议使用数据提取或其他审计技术来评估训练模型的隐私风险;实用的隐私保护技术,建议尽量使用;希望AI生成的图片不要免费为用户提供隐私相关的部分。著作权人从未停止过维权研究,这可能会对正在进行的诉讼产生影响。1月底,图书馆老大哥GettyImages以侵犯版权为由在伦敦高等法院起诉StabilityAI。△StabilityAIGettyImages认为,StabilityAI“非法复制和处理了数百万受版权保护的图像”来训练其StableDifussion。StableDifussion的部分训练数据是开源的。分析查看水印后发现,包括Getty在内的多家图片机构不知不觉中为StableDifussion的训练集提供了大量素材,占比很大。但自始至终,StabilityAI从未与图片社有任何联系。许多AI公司认为这种做法受到美国公平使用原则等法律的保护,但大多数版权所有者不同意这种说法,认为这种行为侵犯了自己的权利。虽然StabilityAI此前曾发表声明称,在下个版本中,版权方可以将自己拥有版权的作品从训练馆中删除,但现阶段仍有部分人不满。到1月中旬,三位艺术家对StabilityAI和Midjourney提起诉讼。法律专家们也意见不一,试图达成共识,但他们一致认为,版权保护问题需要法院裁决。GettyImages的CEOCraigPeters表示,公司已经向StabilityAI发出了通知,称“你们即将在英国打官司”!该公司还表示:我们不关心侵权造成的损失,也无意停止AI美术工具的开发。将StabilityAI告上法庭不符合我们Getty的利益。选择起诉有更深远的长期目的,希望法院制定新的法律来规范现状。
