对于人工智能开发人员来说,这是困难的时期:机器学习领域从来没有如此潜力,它依靠用户的个人信息进行培训,但是,数据调节和公众对数字隐私的看法也从未如此严厉。
2018年剑桥分析丑闻是一个分水岭:来自8700万Facebook用户的个人数据被秘密地用于政治竞选活动。该事件以及社交网络,操作系统和云服务器中安全漏洞的经常消息侵蚀了公众信任。今年早些时候,Google承认其员工会听取客户与公司智能演讲者之间的对话录音。技术人员正在寻求保护隐私的人工智能,这导致了新技术等新技术等新技术。他们会工作吗?
Cambridge Analytica丑闻显示,来自百万Facebook用户的个人数据被秘密地用于政治竞选。
真正的“智能”设备不仅配备了执行某些任务的说明,还应编程为学习如何解决它们。机器学习实际上使计算机能够做出决策而不知道为什么要采取它们,因为该软件只会根据其观察到数以千计,成千上万或数百万个类似情况来猜测最可能的答案。可以预见的是,“最明智的”算法已经在最大的数据集上进行了培训,该数据集通常由人类做出的决定,并具有直觉和创造力。但是,除了分析的示例数量外,还有另一个相关变量。上下文也至关重要。
“我们可以在Wikipedia Data上训练Gboard的语言模型 - Android智能手机的预测键盘 - 但这会很糟糕,因为人们不会键入短信,例如写Wikipedia文章,” Brendan McMahan说。该公司的人工智能分支机构Google AI的高级研究员。由于这种现象,机器学习软件已经渴望从其声称提供服务的用户的数据中。
直到最近,消费者还会自愿提供此类信息。那是在马克·扎克伯格(Mark Zuckerberg)在美国关于数字隐私大会的听证会和欧洲的一般数据保护法规(GDPR)之前的剑桥分析丑闻之前。如今,大多数消费者已经意识到,免费的数字服务通常以个人数据的货币为秘密地交易。采用FaceApp,该软件旨在以数字化智能手机肖像的数字化,以获得一些无害的乐趣。7月,该计划引发了全世界争议,此前指控它偷走了用户手机的所有个人图像。事实证明这是错误的,但是媒体对FaceApp模糊的隐私政策的报道(类似于Twitter等受欢迎的网站的隐私政策),足以阐明未解决的数字隐私问题。
密码学和联合学习
在隐私时代,如何训练机器学习模型的人?一种选择是仅使用称为同构加密的技术来计算加密数据。这使中央服务器能够以任何监督模型的人都无法读取的格式收集和处理个人数据。但是,根据数字隐私专家Andrew Trask(英国)(英国)的数字隐私专家Andrew Trask的说法,密码学“对于复杂功能的速度非常慢”,例如人工智能培训。
Google员工听取其智能扬声器记录的对话片段。学分:约翰·泰克里迪斯(John Tekeridis)
McMahan和他在Google AI的团队提出了一个称为Federated Learning的分散系统,该系统直接在用户的设备上训练算法。“这不是银弹。他在最近的一次全球AI峰会上告知,这并不适用于所有问题,更不用说解决所有问题了。”但是,他们的解决方案是一个可行且有吸引力的选择,自2016年推出以来,它已证明其价值。
联合学习可以培训人工智能,同时分配需要在集中式服务器上收集私人信息。实际上,用户的数据根本不会离开他们的设备,而是该程序出现在他们身上。Google AI团队花了多年的时间来改善其预测键盘。首先,用户将最新版本的Gboard作为软件更新。在输入私人短信时,该模型在每个智能手机上训练。然后将每个培训课程的结果凝结到一个小型更新中,该更新将发送回Google的中央服务器,没有任何分析文本的痕迹。只有这样,该模型才能汇总其学到的所有课程以产生升级的程序。
Android手机的键盘Gboard通过联合学习来保护用户的隐私来训练其预测功能。学分:罗马pohorecki
该公司声称这些下载,培训和上传会话不会排出电池或放慢手机,因为它们仅在“合格”设备上发生,这些设备必须是空闲,充电和WiFi上的。但是,是否可以在越来越多的连接设备上管理此过程,其中大多数的计算能力比智能手机较少。
超越手机
每天,所谓的“智能”对象加入物联网:手表,扬声器,家用电器甚至衣服。除了这样的消费者小工具外,神经技术的发展领域已经在产生与人类神经系统相关的脑机界面。这些设备收集了个人数据(Thoughts),编码为脑波,并将其发送到中央服务器。联合学习可以保护这种敏感的生理信息吗?
“随着正在开发的小型,可部署的处理器,我不会说硬件确实是瓶颈。这是具有挑战性的,但肯定不是一个阻挡者。他警告说:“将模型发送到远程位置所需的网络基础架构更具挑战性和难以升级。”根据Trask的说法,5G的出现是该领域的“要注意的事情”。
每天,所谓的“智能”对象加入物联网。学分:Tumisu
但是,根据辍学实验室(法国巴黎)的隐私机器学习专家莫顿·达尔(Morten Dahl)表示,仅联邦学习并不能保证匿名。为了掩盖训练哪个版本的模型(在中央服务器汇总的模型中),需要一种称为安全多方计算的附加隐私机制。例如,银行在将不同来源的财务数据汇总到研究医院,以汇总患者的病史时已经使用了这种加密技术。Google AI在Gobail的联合培训的最后一步中采用了它。
最终称为“差异隐私”的安全层保证了原始数据不能与最终训练的模型相反。Dahl和Trask都同意,这三种技术共同学习,安全的计算和差异隐私 - 将是人工智能发展的核心。Trask说:“联邦学习将首先统治市场,因为它很简单。”“与其他两种方法一起,它是市场上最快,最安全,最广泛可部署的选择。”BrunoMartín
@TurbanMinor