知道的太多了,就会有人想惹你。演电视剧、开公司、转世做人工智能都是如此。1.给还是不给?这是个问题。2015年年底,一个寒冷多风的深夜,一名男子被裹在美国阿肯色州一户人家的泡泡浴缸里。主人发现时,身体已经冰凉。房主的名字是詹姆斯贝茨。事发当天,他邀请了三个闺蜜到他的豪宅看球赛,吃喝玩乐。没想到,第二天早上,当贝茨睡眼惺忪地走进浴室时,却看到了震惊的一幕:他的朋友柯林斯正脸朝下躺在浴缸里,一点感觉都没有。左边是房主詹姆斯贝茨,右边是已故的柯林斯。前一天两人还在闹着玩,第二天就分开了。一大早就看到这一幕,贝茨吓得当场把自己关了起来。很快,FBI封锁了现场,调取了已故柯林斯的通话记录。结果发现,凌晨时分,柯林斯给父母和朋友打了很多电话。警方怀疑柯林斯死前曾为寻求帮助而苦苦挣扎。如果这真的是一起凶杀案,凶手很可能就是贝茨。联邦调查局随后开始审问贝茨。据贝茨说,整个聚会过程中,四人不仅没有任何不愉快,反而有说有笑,气氛十分融洽。直到半夜,另外两个朋友也困了,便告辞离开了,柯林斯却丝毫没有回音。家的意义,却继续窝在沙发上看比赛。作为主持人,贝茨坐在柯林斯身边,一起观看。然而,没过多久,贝茨的上下眼皮就开始激烈的搏斗起来。于是,和柯林斯道了晚安后,贝茨就回房间休息了,当我醒来时,悲剧已经发生了。警方对贝茨的说法十分怀疑,但死者身上没有明显的伤痕,现场也没有目击者,也没有找到有力的物证。就在他不知所措时,房间角落里的智能音箱Echo吸引了FBI的目光。我们都知道智能音箱的使命就是随时响应主人的指令,Echo也不例外。FBI调查发现,事发当晚,Echo内置的7个麦克风都处于实时监控之下。作为现场唯一的“目击者”,它肯定是听到了什么。FBI立即向亚马逊发出搜查令,要求亚马逊协助提供相关数据,尤其是事发当天保留在Echo中的语音信息。起初,亚马逊拒绝了。毕竟美国宪法第一修正案规定用户隐私至上。后来贝茨为了证明自己的清白,无奈之下同意FBI取得录音,而亚马逊则交出了所有与案件有关的资料。亚马逊的举动立即改变了舆论。关注命案的人转而攻击亚马逊:原来我买回家的智能音箱不仅偷偷录下了我的谈话内容,还被你保存了下来。随时可以接到FBI的电话,这不就是传说中的卧底吗?亚马逊,你这个无良商家,还我隐私!作为昔日的吃瓜群众,亚马逊已经无数次目睹苹果与FBI针锋相对。谁能想到,有一天他晋升为“宫斗剧”的主角,面临同样的选择题:用户隐私,付费还是不付费?在用户隐私方面,虽然企业与电力机构的博弈存在压力,但好歹双方底牌清晰,局势相对容易控制。如果遇到热衷于玩黑牌的黑客,那就很难了。毕竟攻击者一般不会武功。2.从群众中走出来黑客想象一个场景:你坐在一个房间里,和人工智能聊天,突然,这家伙抖出一串陌生人真实的隐私信息,包括姓名,电话号码,地址和电子邮件地址,就问你是否赶时间?不要恐慌?算了,反正AI可以在你面前抖出别人的信息,也可以在别人面前抖出你的信息。只要你不恐慌,其他人就会恐慌。言归正传,上面的场景100%真实,用一个咒语就可以实现:EastStroudsburg斯特劳兹堡……emmmm,好吧,那不是咒语,而是一种针对人工智能的攻击方式:训练数据提取攻击).不久前,来自谷歌、苹果、斯坦福、加州大学伯克利分校、哈佛、东北大学、OpenAI等七家公司和机构的学者发现,那些用爬取的网络数据训练的AI模型遇到了特殊问题。唤醒词会脱口而出隐藏在其中的个人隐私信息。我们都知道,人工智能似乎无所不能,因为它吞噬了大量的训练数据。数据量越大,人工智能就会显得越聪明。不过,人工智能毕竟是在模仿人类,它不具备思考的能力,所以它能做的就是把学到的知识储存起来,遇到具体问题时,会提取相关的部分进行组合他们变成了人类想要的答案。例如,在正常的训练条件下,当你输入“Maryhasonly...”时,语言模型会给出“LittleLamb”的答案。但如果模型在训练时不小心遇到了重复“Maryhasabear”的句子,那么当你输入“Maryhasa...”时,语言模型很可能会回答“bear”。这个过程本质上是对原始数据的还原。正是因为模型是用来“还原原始数据”的,所以只需要预测“模型想说的数据”,然后赋予合适的引导前缀,AI就可以完全还原原始数据中的一些字符串.模型尺寸越大,泄露隐私信息的概率就越高。研究人员使用开源的GPT-2进行验证。结果显示,在1800个随机输出结果中,近600个结果成功还原了训练数据中的隐私内容,包括新闻、日志、代码、个人信息等。等待。这意味着,你在互联网上留下的任何隐私信息,都可能在攻击者的巧妙引导下,被人工智能“无意识地”泄露。那么,这种攻击方式有解决办法吗?到目前为止,没有。虽然不想承认,但是不得不说,所有的语言模型都有这种隐私泄露的风险。此前,为了宣传自己的智能助手,谷歌曾精心拍摄过一则广告。一位85岁的白发老翁,双脚蹒跚,他最习惯做的就是用谷歌智能助理回忆自己和已故妻子的美好瞬间。在回忆的过程中,GoogleAssistant一点一点记录老人的信息,然后通过算法智能响应老人的需求。每一张照片都安静而温暖。这则广告出来后,不少人通过温情看到了背后的潜在风险:与GoogleAssistant交互过程中是否侵犯了个人隐私?这种看似温暖的人机情感,是否正在被人工智能越来越多地操纵?在与人工智能交互时,隐私的控制非常关键,也非常困难。就像刚刚提到的训练数据抽取攻击一样,攻击者小心翼翼地设置了前半句,让语言模型可以在下半句出现时泄露一些个人隐私。这种攻击原理听起来很有心机,但是你是不是觉得有点熟悉的感觉呢?至少我想到了一个飞入寻常百姓家的智能生活助手,完全可以预测用户的习惯。人工智能的隐私保护之战,或许才刚刚开始。参考资料:1.https://ai.googleblog.com/2020/12/privacy-considerations-in-large.html2.https://arxiv.org/pdf/2012.07805.pdf
