隐私,这在这个时代早已是伪命题。为了恢复一定程度的隐私保护,最近的一系列立法举措(包括欧洲的《通用数据保护条例》和美国的《加州消费者隐私法》)规定了个人信息的擦除。然而,如果想让训练好的AI模型“忘记你”,传统的方法只能用新的数据从头开始重新训练——整个过程可能需要数周时间,成本相当高。最近发表的两篇论文,一篇来自斯坦福大学,另一篇(预印本)来自多伦多大学。“我们似乎需要一些新的算法来简化公司之间的实际合作,并确保实施的困难不会成为他们违反隐私法规的借口,”斯坦福大学计算机科学家、合著者MelodyGuan说。第一篇论文。关于高效数据删除的文献非常有限,所以斯坦福大学的作者首先明确了这个问题,并提出了四个可以帮助缓解这个问题的设计原则:第一个原则是“线性”:简单的AI模型只需要进行加法和数字的乘法运算,避免了所谓的非线性数学函数的介入,保证了步骤分解更简单易行;第二项是“惰性”原则,除非确实需要做Prediction,否则尽量推迟计算操作;第三项是“模块化”:如果可能,尽量以可拆分的形式训练模型,然后将结果组合起来;第四项是“量化”,即只要能将平均值锁定在特定的离散区间内,删除对平均结果影响不大的值。斯坦福大学的研究人员将其中两个原则应用于称为k均值聚类的机器学习算法。该算法可用于将数据点分类为自然聚类,例如用于分析密切相关人群之间的遗传差异。(在英国生物银行医学数据库中,聚类算法已经在实践中使用。一些患者向数据库作者提交了通知,要求从数据库中删除他们的记录。)研究人员使用定量技术开发了一个Qk均值该算法在六个数据集上进行了测试,对细胞类型、手写数字、手势、森林覆盖率和连接设备的黑客行为进行了分类。他们删除了每个数据集中的1000个数据点,一次一个。结果证明,Q-k-means算法的速度达到了传统k-means算法的2倍到584倍,而且精度几乎没有损失。使用模块化方法,他们又开发了DC-k-means(用于实施分而治之)。数据中的每个点被随机分成子集,每个子??集独立聚类。接下来,这些子集形成新的簇,依此类推。事实证明,从单个子集中删除一个点不会影响其他子集的结果。新算法的加速范围从16倍到71倍,对精度影响很小。该研究于上个月在加拿大温哥华举行的神经信息处理系统(NerulPS)会议上发表。多伦多大学计算机科学家NicolasPapernot和Vector研究所。然而,其中一些方法在其他算法类型中并不完全适用,例如深度学习中使用的人工神经网络。上个月,Paernot和其他合著者在arXiv网站上发表了一篇论文,提到了一种适合神经网络的训练方法,称为SISA(sharding,isolation,sliceandaggregation)训练。这种新方法采用两种不同的模块化实现。首先,在分片部分,将数据集划分为多个子集,并基于每组模型建立一个独立的训练模型副本。当需要进行预测时,将各个模型的预测结果汇总为一个统一的整体。这样,当我们删除一个数据点时,只需要重新训练其中一个模型即可。第二种方法是切片,就是把每个子集进一步细分。该子集的模型将首先在切片1上进行训练,然后在切片1和切片2上进行训练,然后在切片1、切片2和切片3上进行训练,依此类推。最后,在完成各个步骤后将训练好的模型存档。这样,如果删除切片3中的数据点,可以快速回到训练的第三步,从该点继续训练。根据Papernot的说法,分片和切片方法“相当于为我们的模型训练过程提供了两个调整旋钮。”关还称赞这种方法“非常直观”,但“使用的记录删除标准不够严格”。多伦多的研究人员希望通过在两个大型数据集上训练神经网络来测试该方法。一个数据集包含超过600,000张与家庭地址代码相关的图像,另一个包含超过300,000条购买历史记录。他们从每个数据集中移除0.001%的数据量并进行再训练,发现分片技术(20个分片)将地址相关任务的再训练速度提高了3.75倍,购买记录相关任务的再训练速度提高了8.31倍。次(与标准模型再训练方法相比),对准确性影响很小。结合切片方法后,地址相关任务的速度进一步提升了18%,购买记录相关任务的速度提升了43%,并且准确率没有损失。在公开发布的数据中,仅删除0.001%的数据似乎过于温和,但Papernot表示,对谷歌搜索等服务的再培训比这要小几个数量级。另外,18%的速度提升看似有限,但对于大型机的使用场景来说,已经可以节省大量的时间和金钱。此外,在某些情况下,我们可能能够识别出某些更需要忽略的数据点——例如来自少数民族或患有某些疾病的人的数据点,以确保他们不会受到隐私侵犯的影响。汇总这些数据点将进一步改进移除。Papernot表示,他们也在积极整理数据集的知识,希望能进一步提升SISA方法的定制化水平。关解释说,虽然一些人工智能方法在设计时考虑到了隐私要求,但有时用户仍然需要删除其中的某些数据点。例如,有些人可能不想将他们的数据交给一家声名狼藉的公司,而科学家有时可能需要删除导致问题的数据点(例如黑客用来“毒害”数据集的虚假记录)。无论哪种情况,从AI模型中删除数据都将成为必要。Guan总结道:“显然,我们还没有构建完整的解决方案。但我们认为,明确问题的定义是解决问题的重要前提。我们希望人们在算法设计之初就充分考虑数据保护。需要。”
