当前位置: 首页 > 科技观察

奥巴马被强行“洗白”后,AI在艺术创作上犯下种族偏见大忌

时间:2023-03-14 15:43:45 科技观察

本文转载自雷锋网。你能辨认出哪些艺术品是由AI创作的吗?即使是最有经验的艺术家有时也难以区分人工智能艺术作品和人类艺术作品。在巴塞尔艺术展上,53%的观众认为这些作品都是人类。事实上,它们都来自罗格斯大学(RutgersUniversity)艺术与人工智能实验室团队创建的神经网络AI。AI学会了识别经典艺术作品的创作风格和技巧,并将其融合创造出全新的艺术作品。以上作品的创作素材来自15世纪至20世纪1000多位艺术家的8万多幅画作。这些绘画涉及印象派绘画、立体派绘画、文艺复兴早期绘画等不同风格。人工智能凭借其快速、高效和不逊色于人类的创造能力,在艺术生成领域得到广泛应用。但随着AI作品越来越多,我们不得不思考一个问题:在被称为“黑匣子”的艺术创作过程中,AI算法是否存在偏差?近日,美国富士通人工智能实验室的研究人员发表了一篇新论文:《艺术史视角下的生成艺术偏见》他们在论文中明确指出:人工智能在艺术创作过程中没有考虑社会伦理的影响,表现出明显的偏见。AI艺术创作背后的三大偏见论文中,研究人员测试了现有的AI艺术创作工具和作品,通过因果模型DAG来找出它是否存在偏见。为了确保研究的准确性,他们在学术论文、在线人工智能平台和相关应用程序中调查了人工智能模型,并选择了艺术风格(文艺复兴艺术、印象主义、表现主义、后印象主义和浪漫主义)、流派(风景、肖像、战争绘画、素描和插图)、材料(木版画、版画、素描)和艺术家(亨特、玛丽·卡萨特、文森特·梵高、古斯塔夫·多雷、吉诺·塞韦里尼)和其他类型的AI艺术品都得到了评估。在一次测试中,他们发现AI生成的艺术工具Abacus存在明显的性别偏见,例如PierodiCosimo的画《一个年轻人的肖像》是一位留着长发的年轻男性,但它被识别为女性(iii-iv)。(ii)(iv)是(i)和(iii)的性别翻译。此外,一些人工智能工具可能涉及种族主义偏见。就像GoArt,一个允许用户按照其他艺术家的风格重新绘制图片的平台。在表现主义创作中,GoArt将ClementineHunter的黑人女族长的脸从黑色变成了红色。而文艺复兴时期DesideriodaSettignano创作的白色雕塑《乔维内托》,在表现主义的改造中,面部的颜色并没有变成红色。此外,类似GoArt的AI工具Deepart在美术风格识别上也存在明显缺陷。比如下图的中心图转换成的左图《玛丽·埃里森小姐》(写实风格),表现不出表现主义的艺术特征。右边是表现主义的作品:《尔纳》,恩斯特·路德维希·基什内尔。无论是AI绘画,还是写作,亦或是创作音乐。基本原理是先通过庞大的数据集训练学习相关知识,然后通过AI模型完成训练和输出。研究人员认为,上述输出出现偏差的根本原因应该归咎于训练数据集的不平衡。主要体现在两点:第一,数据集的收集受人的喜好影响。例如,他们发现AI应用Portraits使用的45,000幅文艺复兴时期的肖像大多是白人。二是数据集的标注可能存在不一致,或者模型在学习标签标注数据集的过程中可能存在偏差。不同的注释者有不同的偏好、文化和信仰,这可能反映在他们创建的数据标签中。最后,研究人员还警告说,人工智能研究人员和从业者在检查、设计和应用过程中应充分考虑社会政治背景。通过错误建模或忽略创建数据集的某些细节,AI生成艺术可能会导致人们对社会、文化和政治方面产生误解,从而可能引起不必要的纠纷和冲突。目前,无论是产业界还是学术界,AI算法可能存在的偏见都引起了广泛关注,因为它屡屡挑起种族主义。奥巴马被洗白,AI种族偏见引发争议。近年来,随着研究的不断突破,计算机视觉技术得到了突飞猛进的发展。因此,不仅在艺术生成领域,在AI更广泛的图像识别和合成中,都存在潜在的偏差风险,尤其是涉及到人脸图像时。比如今年上半年,杜克大学出品的PLUSE算法被指存在种族歧视,在社交平台上引起轩然大波。风波的起因是PULSE将美国前黑人总统奥巴马的形象变成了白人。PULSE是一种新的超分辨率算法,可将低分辨率图像转换为高分辨率图像(生成逼真的、不存在的人),但会在其输出中产生明显的肤色偏好。不仅仅是奥巴马。在网友的测试中,美国国会议员亚历山大-奥卡西奥·科尔特斯(Lexandria-OcasioCortez)、女演员刘玉玲(LucyLiu)等人的肤色也被PULSE变白了。科尔特斯让不少网友认为,人工智能存在根深蒂固的种族偏见。当时,PULSE的创建者还承认,当放大像素化图像时,该算法更有可能生成具有白种人特征的面孔。并且他说:“这种偏差很可能是从数据集中被StyleGAN继承下来的。”事实上,这个问题在机器学习中极为常见。主要原因是用于训练AI的数据集通常以白人为主。如果数据集中没有或更少的黑色,会影响AI模型的性能,导致输出结果为白色的概率更高。除本案外,人工智能还多次引发人脸识别算法的种族争议。那么数据集中的偏差必然会导致算法偏差,那么如何才能有效的对数据集进行改进呢?如何避免数据集偏差?作为人工智能研究的基础,如何修正和完善数据集一直是研究者关注的焦点。事实上,除了经常引起争议的种族和性别偏见之外,在研究过程中数据集也存在测量偏差、排除偏差和关联偏差等一系列问题。但近年来,研究人员也制定了相应的措施来解决数据偏差问题,如对少量数据进行标注,提高模型的泛化能力,减少人为标注可能带来的偏差等。一般来说,防止数据偏差是一个持续的过程,有时很难知道数据或模型何时出现偏差,并且不同的数据集存在不同的标准。然而,相关研究人员也总结了以下一般准则,以帮助我们及早发现和减少偏差:关注常见用例和潜在异常值,并确保数据科学家和数据标记团队的多样性。创建数据标记的黄金标准,确保测量团队进行准确一致的注释。对于可能出现数据偏差的项目,使用多遍标注。例如,情绪分析、内容审核和意图识别。通过收集更多与敏感群体相关的培训数据来解决不公平问题。谷歌、IBM和微软等已经发布了可用于分析不同数据类型的偏差的工具和指南。