当前位置: 首页 > 科技观察

谷歌、苹果、英特尔的“医疗数据隐私保卫战”:三种AI技术你更喜欢哪一种?

时间:2023-03-21 22:24:56 科技观察

(图片来源:venturebeat)人工智能有望改变(事实上已经改变)一些现有行业,但隐私仍然是一个悬而未决的挑战。此前,英国NHS基金会被曝在未经160万患者同意的情况下公开了DeepMind的数据。但是,从全球范围来看,数据隐私,尤其是医疗数据的隐私保护,并不是一个新鲜话题。11月,谷歌与Ascension的健康数据共享合作伙伴关系受到审查,当时该公司放弃了发布胸部X光扫描的计划,原因是担心其中包含个人身份信息。去年夏天,微软悄悄删除了一个拥有超过1000万张用户照片的数据集(MSCeleb),因为据透露这些人并不知道自己被包括在内。另外,几份报告揭露了包括苹果和谷歌在内的科技巨头收集的录音,以改善对Siri和Google智能助理等功能的可能非法使用。4月,彭博社透露,亚马逊聘请承包商对来自Alexa驱动设备的数千小时音频进行注释,促使亚马逊推出面向用户的工具,以快速删除存储在云中的数据。隐私不仅仅是一个道德问题,而是业务流程中的博弈。美国州、地方和联邦各级的法律旨在使隐私权成为监管的强制性要素。在美国所有50个州、地区和哥伦比亚特区,数百项涉及隐私、网络安全和数据泄露的法案正在等待或已经通过。可以说,其中最全面的——《加州消费者隐私法》——大约在两年前成为法律,其中不包括《健康保险可携带性和责任法案》(HIPAA)。该法案要求公司在披露个人健康信息之前获得授权。欧盟通用数据保护条例(GDPR)等国际法规旨在让消费者更好地控制其个人数据的收集和使用。回顾人工智能技术的发展历程,隐私问题并未被视为悬在头顶的“达摩克利斯之剑”。但是机器学习的一个子领域——隐私保护机器学习——试图探索防止个人身份数据泄露的方法。联邦学习、差分隐私和同态加密被认为是最有前途的三种技术。神经网络“漏洞”大多数人工智能系统的核心是神经网络,它由将信号传输到其他神经元的功能神经元层组成。这些信号馈入网络,从一层传递到另一层,慢慢地“调整”网络,有效地调整每个连接的突触强度(权重)。随着时间的推移,网络从数据集中提取特征并识别交叉样本,最终做出预测。神经网络不直接处理原始图像、视频、音频或文本。训练语料库中的样本在数学上被转换为多维数组,例如标量(单个数字)、向量(标量的有序数组)和矩阵(排列成一列或多列的标量和一列或多列的标量)。第四种实体类型,封装标量、向量和矩阵以形成张量,增加了高效线性变换(或关系)的列表。尽管进行了这些转换,但通常可以从神经网络的输出中识别出敏感信息,并且数据集本身很容易受到攻击,因为它们通常不会被洗牌并存储在易受数据泄露影响的集中式存储库中。到目前为止,最常见的机器学习逆向工程类型是成员推理攻击,攻击者使用单个数据点或多个数据点来确定它是否属于用于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着重新推理是不可能的,因为人工智能特别擅长重新创建样本。除非使用隐私保护技术,否则经过训练的模型包含来自所有训练集的信息。威斯康星大学和马什菲尔德临床研究所的研究人员能够从经过训练以预测药物剂量的机器学习模型中提取患者的基因组信息。在另一项研究中,卡内基梅隆大学和威斯康星大学麦迪逊分校的研究人员成功地从经过面部识别训练的模型中重建了爆头图像。一种更复杂的数据提取攻击方法使用生成对抗网络或GAN,它由两部分AI系统组成,一个生成样本的生成器和一个区分生成的样本和真实样本的鉴别器。他们经过训练,可以在不接触原始样本的情况下生成与原始语料库中的样本非常相似的样本,并通过与判别性深度神经网络交互来学习数据的分布。2017年,研究人员证明可以训练GAN从私有数据集生成原始样本,从而揭示其中的敏感信息。在另一项研究中,一个团队使用GAN推断用于训练图像生成机器学习模型的样本,在“白盒”设置中他们可以访问目标模型的参数(例如AI使用的变量)拟合数据的技术)。),成功率高达100%。幸运的是,联邦学习和差异隐私等方法有望实现数据隐私。联邦学习联邦学习是今年人工智能领域的热词之一,很多学术界的专家和商界的研究人员都看好这种方法。简单地说,联邦学习是一种使用分布式设备或服务器(即节点)来训练人工智能算法的技术。这些设备或服务器保存数据样本而不交换这些样本,这样每个节点都可以在不共享数据的情况下进行学习。建立一个通用的机器学习模型。这不同于传统的分布式方法,传统的分布式方法假设本地数据样本分布广泛。中央服务器可用于安排算法的执行步骤并充当参考时钟,或者执行步骤可以是对等的(在这种情况下没有中央服务器)。不管怎样,局部模型都是在局部数据样本上训练的,模型之间以一定的频率交换权重,生成全局模型。这是一个迭代过程,在联合学习轮次中分解为一组交互,其中每一轮将当前全局模型状态传输到参与节点。局部模型在节点上训练,每个节点生成一组可能的模型更新,然后将局部更新聚合并处理成单个全局更新,应用于全局模型。谷歌是第一个探索联邦学习的人,并且已经将其部署到生产环境中。雷锋网(公众号:雷锋网)获悉,谷歌在其“数千万”iOS和安卓设备上的Gboard预测键盘中使用它进行个性化设置。在Pixel4发布的同时,谷歌推出了改进版的“正在播放音乐识别”功能,联合聚合歌曲的播放次数,按地区识别最流行的歌曲,提高识别度速度。据雷锋网报道,谷歌近期推出了一款名为TensorFlowfedered的TensorFlow机器学习框架模块,旨在更轻松地对分布式数据进行深度学习等计算。当然,没有任何技术是完美的。联邦学习需要在学习过程中节点之间进行频繁的通信。为了让机器学习模型能够交换参数,它们需要大量的处理能力和内存。其他挑战包括无法检查训练示例,以及由于AI模型只能在提供动力和传递参数的方法可用时才能训练而产生的偏差。差分隐私联邦学习与差分隐私密切相关,差分隐私是一种通过描述语料库中的组模式来公开共享有关数据集的信息,同时保留有关个人的数据的系统。它通常需要在将原始数据输入本地机器学习模型之前向其注入少量噪声,从而使数据窃取者很难从训练模型中提取原始数据。直观地说,如果观察者无法看到有关特定个体的信息是否用于计算,则可以说该算法是差分隐私的。差分隐私的联邦学习过程允许节点共同学习模型,同时隐藏任何节点持有的数据。开源TensorFlow库TensorFlowPrivacy基于差分隐私方法。具体来说,它使用改进的随机梯度下降法调整参数,该方法对训练数据引起的多个更新进行平均,剪辑每个更新,并在最终平均值中添加噪声。这可以防止记住很少的细节,并提供更大的保证,即两个机器学习模型无法区分一个人的数据是否用于他们的训练。自2017年以来,Apple一直在使用差分隐私来识别流行的表情符号、Safari中的媒体播放偏好等,该公司还在其最新版本的移动操作系统(iOS13)中将其与联邦学习相结合。这两种技术都有助于改进Siri的结果,以及Apple的QuickType键盘和iOS等应用程序的功能。后者会扫描日历和邮件应用程序,以查找号码未在本地存储的联系人和来电者的姓名。Nvidia和伦敦国王学院的研究人员最近使用联合学习来训练用于脑肿瘤分割的神经网络,Nvidia称这是医学图像分析的第一个里程碑。他们的模型使用来自BraTS(多模态脑肿瘤分割)挑战的285名脑肿瘤患者的数据集,并且与Google和Apple采取的方法一样,该模型使用差分隐私向该数据库添加噪声。Nvidia的高级研究员NicolaRieke在之前的一次采访中表示:“通过这种方式,每个参与的节点都会存储更新并限制我们在机构之间实际共享的信息的粒度。”如果更新了50%或60%的模型,我们是否还能以全局模型聚合的方式合并更新?我们发现“是的,我们可以”。这真是令人兴奋的结果。即使仅共享模型的10%,也可以聚合模型。当然,差分隐私并不完美。任何注入底层数据、输入、输出或参数的噪声都会影响整个模型的性能。在一项研究中,在向训练数据集添加噪声后,作者注意到预测准确率从94.4%下降到24.7%。另一种保护隐私的机器学习技术——同态加密——没有这些缺点,但也远非完美。IBM研究员CraigGentry在2009年开发了第一个方案,他说同态加密并不是什么新鲜事。但是近年来,随着计算能力和效率的提高,同态加密得到了广泛的应用。它本质上是一种密码学形式,允许对明文(文件内容)执行计算,也称为密文,使用算法加密,使得生成的加密结果与对未加密文本执行的操作结果完全匹配。使用这种技术,“cryptonet”(例如,任何可以应用于加密数据的学习神经网络)可以对数据执行计算并将加密结果返回给某个客户端,然后客户端可以使用加密密钥(未公开共享))解密返回的数据并得到实际结果。“如果我发送MRI图像,我希望我的医生立即看到它,但没有人能做到,”英特尔物联网集团副总裁JonathanBallon今年早些时候告诉VentureBeat。“同态加密可以做到这一点。”一点。此外,模型本身是加密的。所以企业可以把这个模型放在公有云上,而云提供商并不知道他们的模型长什么样。“在实践中,同态加密库并没有充分利用现代硬件,至少比传统模型慢一个数量级。但像cuHE这样的新项目,一个加速加密库,声称比以前在各种上的实现快12%加密任务。”到50倍的加速。此外,像PySyft和tf-encrypted这样的库——分别建立在Facebook的PyTorch和TensorFlow机器学习框架上——最近几个月取得了长足的进步。有库像HETransformer这样的抽象层,它是nggraph(Intel的神经网络编译器)的后端,可以在一些密码网络上提供领先的性能。事实上,就在几个月前,英特尔研究人员提出了nGraph-HE2,它是HE-Transformr的继任者,可以使用自己的激活函数对标准的、预训练的机器学习模型进行推理。他们在一篇论文中报告说,它的运行时标量编码(将值编码成位数组)速度提高了3到88倍,吞吐量翻了一番,额外的乘法和加法优化进一步将运行时速度提高了2.6到4.2倍。IBM高级研究科学家FlavioBergamaschi研究了使用A方法在边缘硬件上实现同态加密操作。在最近的一项研究中,他和同事在配备AI摄像头的设备上部署了一个本地同态数据库,可以直接在摄像头上进行搜索。他们报告说这是“同态加速”性能,每个数据库条目的查找仅需1.28秒,相当于在5分钟内查询200个条目。“我们正处于业绩拐点,”他在最近的一次电话采访中说。“对于某些用例,完全同态加密在性能上已经足够快了。”在生产方面,Bergamaschi和他的团队正在与美国银行的客户合作,使用同态技术来加密机器学习过程。机器学习过程是一个包含十几个变量的线性回归模型,它分析了活期账户持有人24个月的交易数据,以预测这些账户的财务状况,部分用于推荐贷款等产品。为了客户的隐私和合规性,IBM团队对现有模型和使用的交易数据进行了加密,他们使用加密和未加密模型进行预测以比较性能。虽然前者比后者跑得慢,但准确率是一样的。“这是很重要的一点。如果我们没有任何预测模型,我们可以获取交易数据并即时训练新模型,”Bergamaschi说。对同态加密的研究热情催生了一家将其商业化的初创公司。总部位于新泽西州纽瓦克的DualityTechnologies最近获得了IntelVentures的投资,将其同态加密平台定位为“许多”企业的隐私保护解决方案,尤其是受监管行业的企业。银行可以跨机构进行保护隐私的金融犯罪调查,公司的销售宣传也可以,科学家可以用它来研究基于病人记录的问题。但与联邦学习和差分隐私一样,同态加密也并非没有缺点。即使是最先进的技术也只能计算多项式函数——机器学习中许多非多项式激活函数的非标准函数。此外,对加密数据的操作只能涉及整数的加法和乘法,这对于需要浮点计算的学习算法来说是一个挑战。“同态加密适用于你可以在10秒内推断的项目,但如果你今天有3毫秒的周转时间,那就没有办法了,”Baron说。这又回到了工程学。”自2014年以来,Bergamaschi和他的同事一直在试验硬件方法来加速同态运算。带宽历来是最大的绊脚石——虽然加速器单独产生了强大的基线性能,但它们并没有产生强大的系统整体表现。这是因为执行操作所需的数据需要处理器和加速器之间的大量带宽。解决方案可能在于更有效地使用存储在处理器上的技术。韩国高等科学技术研究院研究人员发表的一篇论文提倡对所有正常和安全数据使用组合缓存,并为安全处理器和缓存插入模块采用内存调度和映射方案。他们说,结合使用这两种方法,可以将典型8核和16核安全处理器的加密性能下降从25%-34%减少到不到8%-14%,同时将额外的硬件成本保持在最低水平。保护数据隐私——任重而道远新技术或许能够解决人工智能和机器学习中固有的一些隐私问题,但它们仍处于起步阶段,并非没有弱点。联邦学习在分布式服务器上训练算法,不交换数据样本,但在功率、计算和互联网的波动下难以检查和控制。差异隐私在保存个人信息的同时暴露了数据集的信息,由于注入噪声导致准确性下降。至于同态加密——一种允许对加密数据进行计算的加密形式——它有点慢而且计算量大。尽管如此,像Baron这样的人仍然认为这三种方法都是朝着正确方向迈出的一步。“这与从HTTP到HTTPS非常相似,”Ballon说。“总有一天,我们将拥有使机器学习中的隐私变得坚不可摧的工具和能力,但我们还没有做到这一点。”请到雷锋网官网申请授权。