英国《经济学人》杂志在2017年宣称数据已经取代石油成为世界上最有价值的资源。各行各业的组织开始加大对数据和分析的投资。但就像石油一样,数据和分析也有阴暗面。根据IDG发布的《2021年CIO状况报告》,39%的IT领导者表示,到2021年,数据分析将推动其企业的大部分IT投资,高于2020年的37%。从机器学习算法驱动的分析和行动中获得的见解可以为企业提供竞争优势,但在声誉、收入甚至人身安全方面,错误可能代价高昂。了解数据及其表达的信息很重要,了解工具、数据并牢记业务价值对业务也很重要。以下是过去10年的一些与分析和人工智能有关的错误,以说明可能出现的问题。1、Zillow因算法问题损失惨重,裁员25%。2021年11月,在线房地产服务提供商Zillow告诉公司股东,它将在未来几个季度缩减其ZillowOffers业务,并裁员25%。员工(约2,000人)。Zillow的困境源于其用于预测房价的机器学习算法中的错误。ZillowOffers是一款应用程序,可根据其机器学习算法“Zestimate”得出的房屋价值评估房产报价。该公司当时的想法是翻新物业并迅速出售以扭亏为盈。但Zillow发言人表示,其算法的平均错误率为1.9%,对于非市场房屋,错误率可能更高,高达6.9%。据CNN报道,自2018年4月推出以来,Zillow已使用ZillowOffers购买了27,000套房屋,但到2021年9月底仅售出17,000套。COVID-19大流行和家装劳动力短缺等黑天鹅事件导致算法的准确性出现问题。Zillow表示,该算法导致公司以更高的价格购买房屋,导致公司资产在2021年第三季度减少3.04亿美元。在与投资者的电话会议上,ZillowInc.联合创始人兼首席执行官RichBarton表示可以调整算法,但风险太大。2.由于超出电子表格数据限制,英国公共卫生部(PHE)丢失了数千例新的冠状病毒病例在10月25日至2日期间,近16,000例冠状病毒病例未报告。罪魁祸首是什么?原因是微软办公软件Excel的数据限制。英国公共卫生(PHE)使用自动化流程将COVID-19阳性实验室结果作为CSV文件传输到用于报告仪表板和接触者追踪的Excel模板中。不幸的是,Excel电子表格每张最多只能有1,048,576行和16,384列。此外,它的表格按列而不是按行列出案例。当个案超过16384列的限制时,Excel会删除底部的15841条记录。虽然这个故障并没有阻止接受病毒检测的人收到他们的检测结果,但它确实阻碍了接触者追踪工作,并使NHS更难识别和通知感染患者的密切接触者。英国公共卫生(PHE)临时首席执行官迈克尔布罗迪在10月4日的一份声明中表示,该问题已迅速得到解决,所有记录都立即转移到NHS测试和追踪接触者追踪系统。英国公共卫生(PHE)实施了一项“快速缓解措施”来解压缩大型Excel文件,并对所有系统进行了全面的端到端审查,以防止未来发生类似事件。3.美国的医疗保健算法未能标记黑人患者2019年发表在《科学》杂志上的一项研究表明,美国各地的医院和保险公司使用医疗保健预测算法来确定患者是否需要“高风险护理管理”计划,但该算法无法挑选出黑人患者。这个高风险护理管理计划为慢性病患者提供训练有素的护理人员和初级保健监测,以防止严重的并发症。但该算法对这些项目有利于白人患者。这项研究的研究人员认为,有几个因素可能发挥了作用。首先,有色人种可能收入较低,即使有保险也不太可能获得医疗保健。隐性偏见也可能导致有色人种接受的护理质量较低。虽然该研究没有指明算法或开发人员的名字,但研究人员表示他们正在与开发人员合作解决这个问题。4.数据集训练微软聊天机器人发布种族主义推文2016年3月,微软公司了解到,使用Twitter交互作为机器学习算法的训练数据可能会产生令人沮丧的结果。微软在社交媒体平台上推出了人工智能聊天机器人Tay。该公司将其描述为“对话理解”的实验。这个想法是让聊天机器人扮演一个十几岁的女孩的角色,并结合使用机器学习和自然语言处理通过Twitter与用户互动。微软使用匿名化的公共数据将素材预先写入聊天机器人应用程序,然后让它从社交网络上的交互中学习和发展。在16小时内,聊天机器人发布了超过95,000条推文,这些推文很快就充斥着公然的种族主义、厌恶女性和反犹太主义的内容。微软迅速停止服务进行调整,最终取消了该服务。微软研究院与孵化部副总裁PeterLee事后在微软官方博客发文写道,“我们对Tay无意中冒犯和伤人的推文表示歉意,这并不代表我们的观点,也不代表我们设计Tay的初衷。”Lee指出,微软在2014年推出了Tay的前身Xiaoice,在Tay发布前的两年里,Xiaoice已经成功与超过4000万人进行了对话。但微软没有考虑到的是,很多Twitter用户会立即向Tay发布种族主义和厌恶女性的评论。该机器人迅速从这些推文中学习并将其纳入自己的推文中。他写道:“虽然我们为多种类型的人工智能系统滥用做好了充分准备,但我们在这次特殊攻击中疏忽了。因此,Tay在推特上发布了高度不恰当和应受谴责的文字和图片。“5.亚马逊的人工智能招聘工具只推荐男性与许多大公司一样,亚马逊渴望能够帮助其人力资源部门筛选最佳候选人的工具。2014年,Amazon.comInc.希望开发基于人工智能的招聘软件来做到这一点。但存在一个问题:该系统偏爱男性申请人。亚马逊于2018年取消了该项目。亚马逊的AI驱动的招聘系统从1到5。但AI系统核心的机器学习模型是根据10年来提交给亚马逊的简历进行训练的——其中大部分是男性。由于这些训练数据,招聘系统开始降低简历中的短语其中包含“女性”一词。亚马逊当时表示,其招聘人员从未使用该工具来评估候选人。该公司试图调整该工具以使其保持中立,但最终决定无法保??证它不会学习其他歧视性的候选人分类方式,并最终取消了该项目。6.Target的分析项目侵犯隐私2012年,零售巨头Target的一个分析项目显示了它可以从客户的数据中了解到多少信息。根据《纽约时报》的说法,2002年,Target的营销部门想知道如何确定顾客是否怀孕。一个预测分析项目开展了一系列调查,导致一家零售商无意中向一名十几岁女孩的家人透露她怀孕了。并且此事件已被众多文章和营销博客引用为侵犯隐私的经典案例。Target的营销部门想要识别怀孕的人,因为在人们生命中的某些时期(怀孕是最重要的时期之一),人们最有可能从根本上改变他们的购买习惯。例如,如果Target可以在这段时间内接触到这些客户,它可以吸引这些客户进行更多新行为,并让他们转向Target购买食物、衣服或其他物品。与其他所有大型零售商一样,Target一直在通过购物者代码、信用卡、调查等方式收集客户数据。它将这些数据与它购买的人口统计数据和第三方数据混合在一起。通过分析所有这些数据,Target的分析团队能够确定可以将其销售的大约25种产品一起分析,以得出“怀孕预测指标”分数。然后营销可以使用优惠券和营销信息来过滤掉得分高的客户。其他研究表明,研究客户的生育状况可能会让一些客户感到毛骨悚然。根据《泰晤士报》的说法,该公司没有放弃其有针对性的营销活动,而是将广告与他们知道孕妇不会购买的东西的广告混合在一起,包括割草机和尿布的广告,以吸引顾客。将其广告组合视为随机的。
