当前位置: 首页 > 科技观察

意见:人工智能失败的七种方式

时间:2023-03-21 14:08:49 科技观察

从检测癌症到决定面试谁,人工智能系统在广泛的问题上比人类更快、更准确、更可靠、更公正。但人工智能也经历??过无数次失败,有时甚至是致命的失败。人工智能的日益普及也意味着失败不仅会影响个人,还会影响数百万人。AI社区越来越多地记录这些失败,以监控它们可能带来的风险。“通常很少有信息可以帮助用户了解这些系统的工作原理及其含义,”AI、算法和自动化事件和争议存储库的创始人查理·波纳尔(CharliePownall)说。对这些系统的信任和信心。组织不愿深入研究人工智能事件或争议的原因可能有很多,不仅仅是潜在的法律风险,但如果可信的话让我们看看,这样做符合他们的最大利益。”部分问题在于,为许多人工智能系统提供动力的神经网络技术可能会以对研究人员来说仍然是个谜的方式崩溃。加州大学伯克利分校的计算机科学家DanHendrycks说:“人工智能擅长解决哪些问题是不可预测的,因为我们对智能本身知之甚少。”这里有七个AI失败的例子,以及它们揭示了当前AI的哪些弱点。科学家们正在讨论其中一些问题的可能解决方案;其他人目前无法解释,或者从哲学上讲,可能根本没有任何决定性的解决方案。01.漏洞拍一张校车的照片,然后翻转它,让它侧着,就像在现实世界中发生的事故一样。2018年的一项研究发现,平均而言,97%的最先进的人工智能系统能够正确识别倒置的校车,但在旋转时无法识别它们。“他们会自信地说校车是扫雪机,”阿拉巴马州奥本大学的计算机科学家AnhNguyen说。AI做不到,他说,“连我3岁的儿子也能完成”心智轮转任务。这种失败是脆弱性的一个例子。Nguyen说,AI通常“只能识别它以前见过的模式”。“如果你向它展示一种新模式,它很容易上当受骗。”有很多令人讨厌的AI漏洞示例。在停车标志上贴贴纸可能会误读人工智能。改变图像上的一个像素可以让人工智能将马识别为青蛙。99.99%的神经网络会确信多色静态是狮子的图像。在以肉眼无法察觉的方式修改医学图像后,AI系统100%会误诊癌症。等等。Hendricks说,一种可能使AI更强大地抵抗此类故障的方法是让它们接触尽可能多的令人困惑的“对抗性”例子。然而,他们仍然会在罕见的“黑天鹅”事件中失败。“像冠状病毒或经济衰退这样的黑天鹅问题,即使是人类也难以解决,可能并不是机器学习所独有的,”他指出。02.固有偏见人工智能越来越多地被用于支持重大决策,例如谁获得贷款、刑期长短以及谁先获得医疗保健。人们希望人工智能能够比人类更公正地做出决策,但很多研究发现,如果用来训练这些人工智能的数据存在偏差,可能会导致集体自动歧视,给社会带来巨大风险。例如,2019年,科学家在全国部署的影响数百万美国人的医疗保健算法中发现了种族偏见。AI旨在确定哪些患者可以从重症监护项目中受益,但它通常会在此类项目中招募更健康的白人患者,使他们排在病情较重的黑人患者之前。加州大学伯克利分校的研究员ZiadObermeyer是一名医生,他和他的同事发现,该算法将医疗费用高昂的人误认为是病得最重、最需要护理的人。然而,由于系统性种族主义,“黑人患者在需要时不太可能获得医疗保健服务,因此不太可能产生费用,”他解释说。在与软件开发人员合作后,Obermeier及其同事帮助设计了一种新算法,该算法通过分析其他变量将偏差减少了84%。“需要做更多的工作,但要消除偏见并非不可能,”他说。他们最近写了一份指南,概述了政府、企业和其他组织可以采取的一些基本步骤,以检测和防止其当前和未来使用的软件存在偏差。相关步骤包括:识别它使用的所有算法,了解软件的理想目标以及它在实现这些目标方面的表现,必要时对人工智能进行再培训,并建立一个高级别的监督机构。03.灾难性遗忘Deepfakes,人工生成高度逼真的假图像和视频(通常是名人、政客和其他公众人物),在互联网和社交网络上越来越普遍它通过描绘人们的言行来造成很多伤害那并没有真正发生。为开发能够识别深度造假的人工智能,韩国成均馆大学的计算机科学家ShahrozTariq及其同事创建了一个网站,人们可以在该网站上上传图像以检查其真实性。起初,研究人员训练他们的神经网络来识别一种deepfake。然而,几个月后出现了许多新型的deepfakes,当他们训练AI识别这些新的deepfakes时,AI很快就忘记了如何识别旧的deepfakes。这是灾难性遗忘的一个例子,人工智能在学习新信息后可能会突然完全忘记以前已知的信息,本质上是用新知识覆盖过去的知识。“人工神经网络的记忆力很差,”塔里克说。AI研究人员正在寻找防止灾难性遗忘的策略,以便神经网络可以像人类一样继续毫不费力地学习。有一种简单的技术可以为每个新任务创建专用的神经网络,例如区分猫和狗或苹果和橙子,“但这显然不可扩展,因为网络的数量随着任务数量的增加而线性增加,”说英国牛津大学机器学习研究员SamKessler。在训练其AI识别新型Deepfakes时,Tariq及其同事探索了另一种方法,即向其提供少量数据,了解其如何识别旧类型的Deepfakes,使其不会忘记如何识别它们。塔里克说,这实际上就像考试前复习教科书中的章节摘要。然而,AI可能并不总是能够访问过去的知识,例如,在处理医疗记录等私人信息时。Tarek和他的同事希望创建一个不依赖以前任务数据的人工智能。他们让它训练自己如何识别新型深度伪造品,同时还向另一个人工智能学习如何识别旧类型深度伪造品。他们发现,这种“知识提炼”策略在识别经常在社交媒体上分享的低质量deepfakes方面的准确率约为87%。04.可解释性为什么人工智能会怀疑某人可能是罪犯或患有癌症?对这些和其他高风险预测的解释具有许多法律、医学和其他方面的影响。人工智能如何得出结论长期以来一直是一个神秘的黑匣子,许多人试图解释人工智能的内部运作方式。“然而,我最近的工作表明,可解释性领域有点僵局,”奥本大学的Nguyen说。AnNguyen及其同事研究了研究人员开发的七种不同技术来解释AI决策(例如,是什么决定火柴棍的图像是火柴棍、火焰还是棍子?)。他们发现其中许多方法“非常不稳定”。“他们每次都能给你不同的解释,”Nguyen说。此外,虽然一种归因方法可能适用于一组神经网络,但“它可能在另一组上完全失败。”阮补充道。他说,可解释性的未来可能需要为正确的解释建立数据库。然后,归因方法可以利用这些知识库“并搜索可能解释决策基础的事实,”他说。05.量化不确定性2016年,在佛罗里达州北部,一辆启用了Autopilot的特斯拉ModelS与前方左转的卡车相撞,导致司机死亡,这是首例死亡报告。与自动驾驶系统相关的死亡事故。特斯拉的官方日志显示,无论是Autopilot还是司机“都没有注意到明亮天空下送货卡车的白色一面,因此没有踩刹车”。Bubu和其他公司可以通过提高汽车在计算和处理不确定性方面的性能来避免此类灾难。目前,人工智能“非常有信心,即使它们大错特错,”牛津大学的凯斯勒说。如果算法做出决定,“我们应该很好地了解它对该决定的信心程度,特别是对于医学诊断或自动驾驶汽车,如果它非常不确定,那么人类可以介入并给出(他们的)自己的意见情况的判断或评估。”例如,澳大利亚迪肯大学的计算机科学家MoloudAbdar及其同事使用人工智能将皮肤癌的图像分类为恶性或良性,或黑色素瘤或非黑色素瘤,应用了几种不同的不确定性量化技术。这些方法研究人员发现,这有助于防止AI做出过于自信的诊断。在自动驾驶汽车中量化不确定性仍然存在挑战,因为目前的不确定性量化技术通常很耗时,“而且汽车等不及,”Abdul说。“我们需要一种更快的方法。”06.常识南加州大学计算机科学家项仁表示,人工智能缺乏常识,即基于人们经常使用的广泛的日常知识背景得出可接受且合理的结论的能力认为是理所当然的。“如果你没有足够关注这些模型实际学习的内容,它们可能会学习导致它们错误的捷径功能,”他说。例如,科学家可能会使用来自仇恨言论异常高的地方的数据来训练人工智能识别仇恨言论,例如白人至上主义论坛。然而,当软件接触到现实世界时,它可能无法识别黑人和同性恋者可能比其他群体更频繁地使用“黑人”和“同性恋”这两个词。“即使一篇帖子引用了一篇提到犹太人、黑人或同性恋者的新闻文章而没有任何情感,它也可能被错误地归类为仇恨言论,”任说。相反,“当形容词用于仇恨语境时,人类可以通过通读整个句子来识别它。”先前的研究表明,最先进的人工智能可以以大约90%的准确率得出关于世界的结论。逻辑推理,表明他们在常识上取得了进步。然而,在测试这些模型时,任翔及其同事发现,即使是最好的人工智能在生成逻辑连贯的句子时的准确率也不到32%。在谈到发展常识能力时,他说,“我们AI社区最近非常关注的一件事是使用更全面的检查表从多个维度查看模型的行为。”07.数学尽管传统计算机非常擅长处理数字,但人工智能“出人意料地不擅长数学”,加州大学伯克利分校的亨德里克斯说。“你的模型可能是最新最好的,使用数百个GPU进行训练,但它们仍然不如袖珍计算器可靠。”例如,Hendricks和他的同事训练了人工智能,并给出了一步步的答案。然而,在对12,500道高中数学竞赛题进行测试时,“它的准确率只有5%左右,”他说。相比之下,一位三届国际数学奥林匹克竞赛金牌得主能够“不使用计算器”以90%的准确率回答这些问题。今天的神经网络可以学习解决几乎所有类型的问题,“只要你给它足够的数据和足够的资源,但不是数学问题,”Hendricks说。他表示,科学中的很多问题都需要大量的数学知识,因此人工智能目前的这一弱点可能会限制其在科学研究中的应用。目前尚不清楚为什么人工智能在数学方面表现不佳。一种可能是神经网络像人脑一样以高度并行的方式处理问题,而数学问题通常需要一系列步骤才能解决,因此人工智能处理数据的方式可能不适合这类任务,”人类通常无法在头脑中进行大量计算,”亨德里克斯说。然而,人工智能在数学方面的糟糕表现“仍然是一个小众话题,这个问题没有太大的吸引力”,他补充道。