当前位置: 首页 > 科技观察

人工智能可以映射情绪吗?看DALL-E如何表达抽象

时间:2023-03-13 15:45:23 科技观察

2022年人工智能领域的发展趋势是什么?一定要提到“多模式人工智能”的兴起,尤其是文本到图像生成工具。从DALL-E到Imagen、Parti、Nuwa等,它们都能生成高质量的图像,令人惊叹。最典型的例子就是OpenAI的Dall-E2。自从Dall-E问世以来,你可能已经看到它生成了很多绘画风格的画面,比如宇航员在太空中骑马。然而,很少有图片通过Dall-E展示抽象概念。这不,机器学习科学家GabrieleSgroi来探索DALL-E如何完成这项任务。他在悲伤、爱、愤怒、幸福、正义和不公正的主题上测试油画棒和绘画风格。油画风格SadAngerHappinessLove绘画风格SadLoveAngerHappiness等抽象概念画赏析:正义与非正义JusticeInjusticeGabrieleSgroi认为绘画可以更有洞察力,而不是将情感意象局限在人的面部表情之上。本文中的所有图像(包括封面图像)都是使用DALL-E根据给定提示生成的,以选择第一代提供的所有图像。从这些例子中可以看出,DALL-E在绘画风格上总体上表现出更抽象和复杂的画面,尽管并不总是能够清楚地识别给定的情绪。其中,代表正义的图画大多描绘的是一位希腊女神,而代表非正义的图画则着实令人费解。总的来说,Sgroi观察到结果在很大程度上取决于所选的风格。并且在大多数情况下,DALL-E会在生成的图纸上写上情绪的名称。总而言之,DALL-E似乎对测试的情绪表现出一定程度的理解,正确地将它们与面部表情以及通常与之相关的颜色或符号配对。Sgroi说,进一步研究不同风格对相同情绪的表达差异,并检查观察到的积极和消极情绪之间的偏见是否在其他例子中持续存在,将会很有趣。DALL-E失败了吗?具有讽刺意味的是,DALL-E2声称擅长理解用于生成图像的文本提示。不过有网友发现,当文字暂时看不懂时,会把文字内容放在生成的图片中。比如艺术家勒内·马格利特的一幅画《这不是一支烟斗》。另一位人工智能JanelleShane让DALL-E2生成一个公司标志,但发现没有一张图片能正确拼写这个词。WaffleHouseGenerationExample另外,您可以说DALL-E2知道一些科学定律。因为它可以很容易地描绘出坠落的物体,或者漂浮在太空中的宇航员。但是,如果您想生成解剖图、X射线图像、数学证明或蓝图,生成的图像可能表面上是正确的,但根本上是错误的。比如按比例绘制的太阳系图,可以说是乱七八糟,左下角是地球的形状,左上角是一个类似煎蛋的物体。OpenAI研究员AdityaRamesh解释说,它试图在不理解含义的情况下使某些东西在视觉上相似。所以DALL-E2不知道什么是科学,它只知道如何阅读文字和绘制插图。而当DALL-E2生成人物面部时,逼真到令人难以置信。在训练过程中,OpenAI引入了deepfake保护措施,以防止它记住经常出现在互联网上的面孔。上传的包含真实面孔的图像,甚至是未知人物,都将被拒绝生成内容。但另一个问题出现了,OpenAI表示该系统针对具有单一注意力焦点的图像进行了优化,例如宇航员凝视地球的微妙肖像,脸上带着渴望的表情。还是很成功的。然而,当DALL-E被要求一次生成多人的图像时,它直接崩溃了。所以它在生成合影和人群场景时变得非常糟糕。此外,DALL-E还会生成一些有偏差的图像。目前,OpenAI的团队已经开始使用机器学习来纠正偏见。例如,在DALL-E2的训练过程中,研究人员调整了训练方法,增加了女性图像的权重,使其更容易被生成。DALL-E未来会带来更多惊喜。