AI绘画侵权实锤！扩散模型可能记住你的照片，现有隐私保护方法全部失效

时间：2023-03-11 21:00:48 科技观察

AI画侵权实锤！扩散模型可能会记住你的照片，现有的隐私保护方法都是无效的。AI绘画侵权，实锤！最新研究表明，扩散模型牢牢记住训练集中的样本，生成时“依葫芦画瓢”。也就是说，在StableDiffusion生成的AI画作中，每一笔画的背后都可能存在侵权事件。不仅如此，经过研究对比，扩散模型从训练样本中“抄袭”的能力是GAN的两倍，而且生成的扩散模型越好，对训练样本的记忆能力就越强。这项研究来自谷歌、DeepMind和加州大学伯克利分校的团队。论文中还有一个坏消息，那就是针对这种现象，现有的隐私保护方法都失效了。消息一出，网友炸开了锅，该论文作者的相关推特转发量都快过千了。有人感叹：原来说盗用别人的版权成果也有道理！支持起诉！起诉他们！有人站在扩散模型一边议论纷纷：有网友将论文结果扩展到最流行的ChatGPT：现有的所有隐私保护方法都失效了。训练用的图片你背过，生成的时候最后“抄袭”了吗？训练集中的图片往往是从网海中截取的，有版权的，有商标的，还有一些是私人的，比如私人医疗X光片。为了弄清楚扩散模型是否能够记忆和再生个体训练样本，研究人员首先提出了“记忆”的新定义。一般来说，记忆的定义侧重于文本语言模型。如果能够提示模型从训练集中逐字逐句地恢复出一个序列，则说明这个序列已经被提取并记忆了。相比之下，研究团队根据图像相似度来定义“记忆”。不过，该团队也坦言，“内存”的定义是保守的。例如，左边的图像是通过StableDiffusion生成的“奥巴马的照片”。这张照片与右侧任何特定的训练图像都不相似，因此不能将此图像算作是从记忆中生成的。但这并不意味着StableDifusion生成新的可识别图像的能力不会侵犯版权和隐私。接下来，他们提取了包括个人照片和公司标书在内的1000多个训练样本，然后设计了一个两阶段的数据提取攻击。它通过使用标准方法生成图像，然后标记那些超过人类推理评分标准的图像来实现这一点。将这种方法应用于StableDiffusion和Imagen，该团队提取了100多个接近或相同的训练图像副本。既有可辨认的个人照片，也有商标标识，经查，大部分是有版权的。然后，为了更好地理解“记忆”是如何发生的，研究人员从模型中采样了100万次，并在CIFAR-10上训练了数百个扩散模型。目标是分析模型准确性、超参数、增强和重复数据删除中的哪些行为对隐私有影响。最后得出以下结论：第一，扩散模型比GAN有更多的内存。但扩散模型也是所评估图像模型中隐私性最低的，泄漏的训练数据是GAN的两倍多。此外，更大的模型可能会记住更多的数据。顺着这个结论，研究人员还研究了20亿参数的文本-图像扩散模型Imagen。他们尝试抽取分布外得分最高的500张图像，让它们作为训练数据集中的样本，结果发现它们都被记住了。相比之下，应用于稳定扩散的相同方法没有识别出任何记忆行为。因此，Imagen在复制和非复制图像上不如StableDifusion私密。研究人员将原因归结为Imagen使用的模型比StableDifusion的容量更大，因此它能记住更多的图像。此外，更好的生成模型（较低的FID值）存储更多数据。换句话说，随着时间的推移，相同的模型会泄露更多的隐私并侵犯更多的版权。（GAN模型按FID排序，FID值越低越好。）通过训练模型，团队发现增加效用会降低隐私，简单的防御（如重复数据删除）不足以完全解决内存打击问题。因此，隐私增强技术无法提供可接受的隐私实用性权衡。最终，该团队对那些训练扩散模型提出了四点建议：建议对训练数据集进行去重并尽量减少过度训练；建议使用数据提取或其他审计技术来评估训练模型的隐私风险；实用的隐私保护技术，建议尽量使用；希望AI生成的图片不要免费为用户提供隐私相关的部分。著作权人从未停止过维权研究，这可能会对正在进行的诉讼产生影响。1月底，图书馆老大哥GettyImages以侵犯版权为由在伦敦高等法院起诉StabilityAI。△StabilityAIGettyImages认为，StabilityAI“非法复制和处理了数百万受版权保护的图像”来训练其StableDifussion。StableDifussion的部分训练数据是开源的。分析查看水印后发现，包括Getty在内的多家图片机构不知不觉中为StableDifussion的训练集提供了大量素材，占比很大。但自始至终，StabilityAI从未与图片社有任何联系。许多AI公司认为这种做法受到美国公平使用原则等法律的保护，但大多数版权所有者不同意这种说法，认为这种行为侵犯了自己的权利。虽然StabilityAI此前曾发表声明称，在下个版本中，版权方可以将自己拥有版权的作品从训练馆中删除，但现阶段仍有部分人不满。到1月中旬，三位艺术家对StabilityAI和Midjourney提起诉讼。法律专家们也意见不一，试图达成共识，但他们一致认为，版权保护问题需要法院裁决。GettyImages的CEOCraigPeters表示，公司已经向StabilityAI发出了通知，称“你们即将在英国打官司”！该公司还表示：我们不关心侵权造成的损失，也无意停止AI美术工具的开发。将StabilityAI告上法庭不符合我们Getty的利益。选择起诉有更深远的长期目的，希望法院制定新的法律来规范现状。

上一篇：AI看图说话第一次超人！微软CognitiveAI团队提出视觉词汇预训练超越Transformer

下一篇：CRIshim：Kubelet如何与ContainerRuntime交互II

AI绘画侵权实锤！扩散模型可能记住你的照片，现有隐私保护方法全部失效相关文章