当前位置: 首页 > 科技观察

数据安全:算法的局限性_0

时间:2023-03-16 20:17:14 科技观察

大数据时代,数据在给人类生产生活带来极大便利的同时,也衍生出诸多问题。在数据滥用层面,最典型的表现就是价格操纵问题。商家利用算法的不透明性和局限性,进行“千价万价”、“动态定价”、“大数据杀熟”,以不正当的方式赚取暴利。在数据安全方面,个人信息收集混乱。商家使用用户画像技术深入挖掘个人信息。很多移动互联网应用通过默认勾选隐私条款和霸王条款获取用户信息,甚至擅自抢占用户信息。此外,不法分子利用信息系统漏洞和黑客技术窃取个人信息,造成个人信息泄露严重。泄露的数据在黑市上出售,导致“撞库”攻击频发,进一步加剧了个人信息泄露现象,数据黑产已经发展成为成熟的产业链。这些数据滥用和数据安全问题将成为影响数据价值释放的“绊脚石”。一、身份、偏见与从众大数据时代,互联网内容呈爆发式增长趋势。如何从纷繁复杂的网络内容中挑选出自己需要的信息,成为很多网民的烦恼。起初,搜索引擎的出现缓解了这个问题。然而,搜索引擎往往要求用户知道他们想要获取什么内容,以便通过搜索找到目标。例如,电影爱好者需要知道他们喜欢什么样的电影才能进一步搜索,但问题是很多时候我们对自己的喜好了解不多。这时,数据挖掘算法应运而生。相关算法利用用户的历史数据推送符合用户喜好的内容,已广泛应用于微博、豆瓣、今日头条等社交和资讯类应用。数据挖掘算法就像是“人”的机器,接受人的数据进行学习、推理和输出内容是按照人的思维进行的,所以输出的内容也包含了人的价值观和偏好。既然数据挖掘算法“懂人性”,那么很可能该算法也具有人性认知局限的成分。因此,我们很有必要首先从社会心理学的角度来审视人类社会中存在的认同、偏见、从众等认知局限现象。认同是指对地位或成就高于自己的个体的肯定,以消除个体在现实生活中无法获得成功或满足时所产生的挫败感和焦虑感。认可可以通过在心理上分享他人的成功来带来个人满足感或增强个人自信心。例如,“狐狸扮老虎”、“模仿老虎”都是识别的例子。身份有时也可以是对组织的认同。比如,一个从小失学的人加入了一个学术研究小组,成为小组的荣誉会员,不断地在小组中炫耀自己的重要性。偏见是对某个人或群体的一种不公平、不合理的消极态度。它是人脱离客观事实而建立的对人和事的消极认识。大多数情况下,偏见是基于某些社会群体的成员资格而对他们形成的一种态度,并且通常是错误的消极或敌对的。例如,人们容易因性别、肤色、宗教信仰等原因而对其他人或群体产生偏见和歧视。从众是指由于某种原因,个人的思想和行为不自觉或不由自主地与大多数人保持一致的一种社会心理现象。群体的引导和压力。一般情况下,多数人的意见往往是对的,服从多数人一般没有错,但这会导致缺乏分析,没有独立思考,不分对错服从多数人,造成处于被动和盲目的从众心理。法国社会心理学家古斯塔夫·勒庞的著作《乌合之众:大众心理研究》是一部大众心理学著作。勒庞在书中阐述了群体的特征和群体心理,指出当一个人是孤立的个体时,他有自己鲜明的个体特征;但是当这个人融入了群体之后,他所有的人格都会被群体淹没,他的思维立刻被群体的思维所取代。2、只让你看到你认同的内容目前,该算法有一个明显的特点和一个局限性,就是只让人看到你认同的内容。以常用的个性化推荐算法为例,个性化推荐算法需要两个基础才能发挥作用,一是算法训练数据,二是算法模型设计。从算法训练数据来看,往往需要收集众多用户的个人喜好数据。例如,对电影、手机、新闻的偏好。从算法模型设计的角度来看,算法的原理是根据用户的个人喜好数据,找到兴趣相似的用户,然后进行推荐。以推荐电影为例,通过对比个人喜好数据,可能会发现张三和李四喜欢看同一几部电影,不喜欢看其他几部电影。由此可以判断,两个用户在电影方面的喜好是非常相似的。因此,通过向李斯推荐张三喜欢而李斯还没有看过的电影,实现了个性化推荐。这种推荐算法是基于用户的协同过滤的,如图1所示,它利用了日常生活中“喜欢群聚,人分群”的特点。它不需要判断目标用户的喜好。重点是寻找目标用户认同的用户群体,然后在具有相似偏好的群体内开展相互推荐活动。该算法得到了学术界和企业界的广泛认可,各种基于其改进的算法层出不穷。图1协同过滤算法原理示意图然而,如果继续进行这种个性化推荐,算法可能会陷入一个怪圈——只让你看到你认同的内容。比如一个为用户推送信息的APP,每天都会推送符合用户喜好或者被用户认可的信息。如果用户关注体育新闻,那么APP推送的新闻会越来越偏向于体育资讯,无形中会降低用户对社会民生、国家大事等内容的关注度。这就是为什么人们有时打开社交和信息应用程序,发现推送的基本上是某类内容。从这个意义上说,虽然个性化推荐算法设计的初衷是帮助用户发现信息,但也会限制用户的视野和思维,让用户停留在自我认同的圈子里。这与人类固有的身份认同、偏见和从众心理及社会属性有关。由于人类认知先天的局限性,基于人类思维创造的算法必然存在局限性。这个问题正逐渐被计算机学者和工程师所认识。他们在算法评价中加入了多样性指标、新颖性指标、覆盖率指标,即算法的推荐结果不能只针对某一类内容。然而,目前学术界更关注准确性指标,而商业界缺乏由利益驱动优化多样性指标、新颖性指标和覆盖率指标的动力。各指标简介如表1所示。表2个性化推荐算法评价指标介绍有人可能会问,即便如此,这对个人和社会的影响有多大?这个影响不小!因为个性化推荐算法不仅仅用在信息类应用中,一些专注于内容创作的行业也在使用这种算法。Netflix(Nexflix)成立于1997年,最初主要从事DVD租赁业务。1998年3月,公司推出全球第一家网上DVD出租店,拥有925部电影,几乎是当时所有的DVD电影存量。1999年,公司推出包月订阅模式,迅速在业界树立起知名度。随后,随着影碟机的价格越来越便宜,成为普通老百姓买得起的产品,其用户也大幅增加。2005年,该公司开始提供在线视频流服务,随后推出了NetflixPrize算法大赛,投资100万美元奖励开发者优化电影推荐算法。截至2012年底,Netflix在全球拥有2940万订户。那一年,Netflix开始尝试自制内容,并于2013年推出《纸牌屋》,超高的内容质量和一次性发布整季内容的分发方式,使其瞬间风靡全球。如今,Netflix的市值已经超越迪士尼,跻身全球互联网公司前十。回顾Netflix过去20年的快速发展历程,个性化推荐起到了举足轻重的作用。以《纸牌屋》为例,Netflix专门记录了观众在看剧时的相关操作,包括哪一幕要暂停,哪一段剧情要快进,哪一分钟要反复看等等,从中可以判断观众是否喜欢根据这一系列的“信息”来指导《纸牌屋》后续剧情的拍摄、演员的选择和台词的书写。可以说,《纸牌屋》的巨大成功是基于个性化算法推荐和大数据的应用。Netflix的推荐算法有多强大?根据Netflix产品创新副总裁CarlosUribe-Gomez和首席产品官NeilHunt的报告,该算法可以为Netflix节省10亿美元。但是,我们也应该看到一个结果,就是这种完全迎合受众的算法,让人们只看到自己喜欢或认同的东西,这会进一步加剧人们认知的局限性。3、公平性缺失越来越严重随着数据挖掘算法的广泛应用,另一个突出的问题也出现了,即算法的输出可能存在不公平甚至歧视。2018年,IG夺冠的喜讯让网络沸腾。IG战队老大立即在微博上抽签,随机抽取了113名用户,每人奖励一万元现金。但是抽签的结果却是惊人的。获奖名单包括112名女性获奖者和1名男性获奖者。女性获奖人数是男性的112倍。不过官方数据显示,在本次抽奖中,所有参与用户的男女比例为1:1.2,男女比例没有太大差异。于是,不少网友开始质疑微博的抽奖算法,甚至有用户主动测试抽奖算法,设置中奖人数大于参与人数,结果发现仍有大量用户谁不能赢得奖品。这些无法中奖的用户,很可能已经被抽奖算法判定为“机器人”,在以后的任何抽奖活动中都可能没有机会中奖,这就引发了网友们衡量他们是否是“垃圾用户”。“微博算法事件”掀起全城风波。事实上,这并不是人们第一次质疑算法背后的公平性。近年来,不少科技公司的算法被检测出具有歧视性:在谷歌搜索中,男性比女性更有机会看到高薪职位信息;微软的人工智能聊天机器人Tay竟然被“教”成了兼具性别歧视和种族歧视的“坏女孩”……这些事件引发了广泛关注。即使算法设计者的初衷是为用户推荐有用的信息,对图片进行机器识别,让聊天机器人不断学习人类对话的方式,但在“黑”面前,人们往往无法理解算法的意义算法决策的盒子”。决策过程只能了解最终结果。为什么大数据算法会歧视?计算机领域有一个首字母缩略词——GIGO(Garbagein,GarbageOut),大致意思是“如果输入是垃圾数据,那么输出也将是垃圾数据”。大数据领域也有类似的说法。《自然》杂志曾用BIBO(BiasIn,BiasOut,即“偏入,偏出”)来表示数据质量与算法结果准确性之间的强相关性。在选择使用什么样的数据时,人们往往容易产生歧视,这会直接影响输出结果。例如,在导航系统的最快路线选择中,系统设计者只考虑道路信息,而不考虑公共交通时刻表或自行车路线,从而使没有车辆的人处于劣势。此外,在收集数据时可能缺乏技术严谨性和全面性,可能出现假阳性和漏阴性,也会影响结果的准确性。因此,基于数据和算法推断的结果可能会给一些人带来意想不到的优势,而另一些人则处于不公平的劣势——这是一种难以接受的不公平现象。除了制造不公平之外,算法歧视还在继续剥削消费者的个人财富。《经济学家》杂志显示,2014年最受欢迎的100家网站中,有超过1300家企业在追踪消费者。利用算法技术,大大提高了企业利润。但是,羊毛出在羊身上,这些利润其实都来自于消费者。特别是随着算法在自动驾驶、犯罪风险评估、疾病预测等领域应用的日益广泛和深入,算法歧视甚至可能对个人生命造成潜在威胁。在国外,算法歧视也备受关注。2014年,美国白宫发布的大数据研究报告提到了算法歧视问题,认为算法歧视可能是无意或有意对弱势群体的剥削。2016年,白宫发布《大数据报告:算法系统、机会和公民权利》,聚焦信用、就业、教育、刑事司法等领域的算法歧视问题,提醒人们从立法、技术、道德等方面予以补救。对于算法歧视问题,企业界和学术界都在尝试从技术和制度层面解决。例如,在技术层面上,微软程序员亚当·卡莱(AdamKalai)正在与波士顿大学的科学家合作开发一种名为“词嵌入”的技术,以打破算法中的性别歧视。除了技术方面,制度和规则也很重要。在人类社会中,人们可以通过诉讼、审查等程序来纠正许多不公平的行为和事件。算法也需要类似的规则。事后审查算法并不容易。最好的办法是提前建立相关的制度和规则。这应该成为未来社会各界共同努力的方向。