当前位置: 首页 > 科技观察

AI的下一站在哪里?

时间:2023-03-12 16:06:25 科技观察

我们身处智能变革的时代,人工智能技术正在“赋能”各行各业。大数据就像新能源,人工智能算法就像引擎。承载大数据和人工智能技术的企业,就像坐上了通往未来的快车,将竞争对手远远抛在后面。隐私然而,这种快速发展并非没有代价。我们每个人的手机号码、电子邮箱地址、家庭地址和公司地址经纬度坐标、手机识别码、消费记录、APP使用记录、上网浏览记录、搜索引擎结果点击习惯、人脸识别记录、指纹、心跳等信息是我们不愿意轻易给出的隐私数据,但在AI时代,这很可能已经成为一家公司用来训练AI算法的数据集之一。正是很多不起眼的个人隐私数据,构成了足够多的训练集,让AI学习认知能力,让素未谋面的AI算法了解我们,了解我们的喜好和动机,甚至了解我们的家人和朋友。我们的隐私是这些情报的“代价”。当然,这个价格不一定是你愿意付出的。那么如何保护隐私呢?我可以不使用它吗?你以为关闭手机的GPS就不能定位到你的位置吗?你的手机还有陀螺仪,内置罗盘、气压计等设备,仍然可以用来定位你的位置。只要用手机,就没有绝对的隐私保护。对于很多手机APP来说,如果不使用或者不使用,隐私泄露是很难避免的。比如很多APP必须要用手机号注册,或者需要手机验证才能继续使用,有的还需要人脸验证等等。那么,如果个人想要保护自己的隐私,可以做些什么呢?无能为力。再加上人工智能算法的黑盒特性,我们甚至不知道人工智能背后的逻辑和动机。监管隐私保护确实很难通过人身保护来实现,需要强有力的法律法规来约束。2018年5月25日,欧盟的《通用数据保护条例》(GDPR)正式生效。这是欧盟内部的数据保护监管框架。是目前最完善、最严格的隐私保护法规。根据DLAPiper公布的数据,在不到两年的时间里,GDPR导致了1.14亿欧元的罚款,其中最大的一笔是法国根据GDPR对谷歌罚款5000万欧元,理由是谷歌向用户发送有针对性的信息。广告缺乏透明度、信息不足和有效的用户同意。下图显示了自GDPR生效至2020年1月,欧盟各国的罚款分布情况。对于企业而言,GDPR要求在收集用户个人信息前,必须向用户说明将收集哪些信息、收集的信息将如何存储、存储的信息将如何使用,并告知企业的联系方式。对于个人,GDPR赋予数据主体七项数据权利:知情权、访问权、更正权、删除权(被遗忘权)、限制处理权(反对权)、可移植权和拒绝。目前,GDPR正在真正影响着我们每个人的生活。最直观的影响就是当你浏览网页时,经常会发现网站弹出类似下图的提示。这是基于网站的信息透明度。您请求信息收集的许可。欧盟的GDPR具有全球影响力。它让用户对自己的个人数据拥有绝对的控制权,让全世界在发展新技术的同时关注隐私问题。世界各国都出台了自己的数据保护法规。关于隐私保护,一切才刚刚开始。欧盟上个月正式启动了一项名为“建设欧洲数字未来”的新战略,旨在通过制定一系列针对人工智能、隐私和安全的法规,成为人工智能发展的全球领导者。该战略的推出也被视为对人工智能在美国和中国崛起的回应。可以预见,人工智能的隐私安全和监管将逐渐成为重点话题。事实上,正如欧盟委员会副主席玛格丽特·维斯塔格所说:“人工智能本身并无好坏之分,完全取决于人们为何以及如何使用它。”用它。让我们尽最大努力控制人工智能可能给我们的价值观带来的风险——不伤害,不歧视。”人工智能的良性发展趋势可以说,各种保护隐私的法律法规的出台是未来的必然趋势,这必然会增加企业数据收集、使用和流转的合规成本,将也容易导致企业内部或企业之间形成数据孤岛,制约企业获取数据价值。因此,隐私保护AI技术的落地成为AI领域最紧迫的目标。隐私保护AI主要保护通过数据加密、分布式计算、边缘计算、机器学习等技术的结合实现数据安全,最近比较流行的有DifferentialPrivacy(差分隐私)、FederatedLearning(联合学习,也叫联合学习)、联合学习、共享学习)。保护隐私并不是完全不收集数据,而是通过技术手段防止个人隐私数据外泄。差分隐私是一种数学技术,例如,假设我们要分析一个数据集并计算其统计量(例如数据的均值、方差、中位数、众数等),如果通过查看输出,我们无法判断是否包含任何个体数据,则称该算法为差分隐私。举一个很简单的例子,假设你的工作部门用一个表统计每个月部门内每个人的工资发放金额。除了制作表格的人之外,没有人可以查看这张表格。他们只能通过一个查询函数S知道这个表的信息,总金额,如果你某月调到别的部门,那么别人就可以通过上个月的表A和本月的表B知道你的工资。原因很简单,就是用S(A)B)减去S(A)。FormB称为FormA的相邻数据集,它们之间只有一处数据不同。差分隐私技术就是让相邻数据集的查询结果相似,从而无法推导出个人信息。这种相似度可以看作是隐私保护强度。Apple和Facebook已经使用这种方法来收集汇总数据,而无需识别特定用户。《麻省理工科技评论》将差分隐私技术列为2020年全球十大突破性技术之一。联邦学习采用分布式机器学习方法,近年来越来越流行。该技术假设用户数据不会存储在中央服务器中,而是隐私和机密的,并且仅存储在个人边缘设备上。比如手机,所以联邦学习相对于传统的机器学习方法,从根本上增强了用户隐私。联邦学习不依赖于从用户设备上收集的数据进行训练,而是在用户的移动设备上训练AI模型,然后将训练好的参数信息传回一个全局模型。此过程不需要用户数据离开个人设备。从近两年arXiv(预印本论文提交平台)的论文投稿数量可以看出该技术的快速发展趋势:巨头的技术布局已经成为全球最热门的两个机器学习框架世界自去年以来,TensorFlowPyTorch和PyTorch都添加了联邦学习等解决方案来保护隐私。(1)谷歌联邦学习的概念最早由谷歌于2017年提出,去年发布了TensorFlowFederated(TFF)框架,利用Tensorflow的机器学习框架来简化联邦学习。如下图所示,基于TFF框架构建的学习模型在多部手机(如手机A)上进行局部模型训练,更新权重并聚合(步骤B),再更新改进后的全局模型(模型C)。然后将该模型应用于各个移动终端,以提高算法的应用效果。(2)为了在隐私保护机器学习领域取得进展,Facebook优秀的深度学习框架PyTorch和OpenMined去年宣布计划开发一个联合平台,以加速隐私保护技术的研究。OpenMined是一个开源社区,专注于研究、开发和升级用于安全和隐私的AI工具。OpenMined发布了PySyft,这是第一个用于构建安全和隐私保护的开源联邦学习框架。PySyft非常受欢迎,在Github上已经有5.2k颗星。目前支持主流深度学习框架(PyTorch、Tensorflow)中的联邦学习、差分隐私和加密计算(如多方计算、同态加密),实现隐私数据与模型训练的解耦。国内发展现状国内人工智能巨头已经开始了隐私保护的技术布局,尤其是在金融领域。由于金融领域监管严格,对数据隐私的要求极高。因此,一方面金融机构在保护隐私数据方面面临技术难题。另一方面,由于金融数据的孤立,“数据孤岛”问题阻碍了金融机构实现数据的真正价值。国内很多金融机构和金融科技公司都尝试通过联邦学习在获客、授信、风控等方面解决数据共享中的数据隐私合规问题和数据孤岛问题,实现金融数据价值最大化。目前,国内隐私保护法规还不够成熟,个人和企业的隐私保护意识还不强。随着全球环境对隐私保护的日益重视以及保护隐私的人工智能技术的发展,相信人工智能技术最终会朝着更好的方向发展。希望通过科学家的努力,人工智能的黑匣子不会是潘多拉魔盒。