当前位置: 首页 > 科技观察

哈佛大学砸场:DALL-E2只是个“胶水怪兽”,生成正确率只有22%

时间:2023-03-14 17:08:08 科技观察

DALL-E2刚发布时,生成的画几乎可以完美再现输入文字,高清分辨率,强大的绘图脑洞也让各界网友直呼“太酷了”。但最近哈佛大学的一篇新研究论文显示,虽然DALL-E2生成的图像很精美,但它可能只是将文本中的几个实体粘合在一起,甚至没有理解文本中表达的空间关系!论文链接:https://arxiv.org/pdf/2208.00005.pdf数据链接:https://osf.io/sm68h/例如给出一个文本提示为“Acuponaspoon”,可以看到DALL-在E2生成的图像中,可以看到有些图像不满足“开”的关系。不过在训练集中,DALL-E2可能看到的茶杯和勺子的组合都是“in”,而“on”则比较少见,所以两者关系的生成准确率并不相同。所以为了探究DALL-E2能否真正理解文本中的语义关系,研究人员选取了15种关系,其中8种是物理关系,包括in、on、under、covering、near、occupiedby、hanging结束并绑在;7种代理关系,包括推、拉、碰、打、踢、助、阻。文中实体集合限制为12个,选取简单,每个数据集中常用物品,即:盒子、圆筒、毯子、碗、茶杯、刀;男人、女人、孩子、机器人、猴子和鬣蜥(鬣蜥)。对于每一种关系,创建5个提示,每次替换2个实体时随机选择,最终生成75个文本提示。提交给DALL-E2渲染引擎后,选取前18张生成图像,最终得到1350张图像。然后研究人员通过常识推理测试从180名标注者中选出169名参与标注过程。实验结果发现,在75个提示中,DALL-E2生成的图像与用于生成图像的文本提示之间的平均一致性仅为22.2%。不过,很难说DALL-E2是否真的“看懂”了文字。根据0%、25%和50%的一致性阈值,对每一种关系进行Holm校正的单样本显着性检验表明,所有15种关系在α=0.95(pHolm<0.05)的参与者的一致性率显着更高小于0%;但只有3种关系的一致性显着高于25%,即抚摸、帮助和踢,没有一种关系的一致性高于50%。所以即使不对多重比较进行校正,事实也是DALL-E2生成的图像不理解文本中两个对象之间的关系。结果还表明,DALL-E连接两个不相关物体的能力可能没有想象中的那么强。例如,“小孩摸碗”的一致性达到了87%,因为现实世界中的图像,小孩和碗一起出现的频率很高。“猴子摸鬣蜥”生成的图像最终一致性率只有11%,渲染图像甚至可能存在物种错误。因此,DALL-E2中有些类别的图像发展得比较好,比如儿童和食物,但有些类别的数据还需要继续训练。不过目前的DALL-E2还是主要在官网上展示其高清写实风格。到底是将两个物体“粘合”在一起,还是真正理解了文字信息后生成图像,目前还没有弄清楚。关系理解是人类智能的基本组成部分,而DALL-E2在基本空间关系(如on、of)上的糟糕表现表明它在构建和理解这种关系方面还不如人类灵活和稳健,研究人员表示.世界。不过网友们表示,能研发出“胶水”来粘东西,已经是相当了不起的成就了!DALL-E2不是AGI,未来还有很大的提升空间,至少我们打开了自动生成图像的大门!DALL-E2有什么问题?事实上,DALL-E2一出,就有大量从业者对其优缺点进行了深入分析。博文链接:https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do用GPT-3写小说有点单调,DALL-E2可以生成文本一些插图甚至可以为长文本生成连环画。例如,DALL-E2可以为图片添加特征,比如“一个女人在咖啡店里用笔记本电脑工作,戴着耳机,AlphonseMucha的画作”,可以准确生成绘画风格,咖啡店,戴着耳机,笔记本电脑,ETC。。但如果文字中的特征描述涉及到两个人,DALL-E2可能会忘记哪些特征属于哪个角色。例如,输入文本是:一个年轻的黑发男孩躺在床上休息,一个白发苍苍的老妇人坐在床边的椅子上,窗户下面阳光洒进来,皮克斯风格的数字艺术。风格数字艺术。可以看出,DALL-E2可以正确生成窗户、椅子和床,但生成的图像在年龄、性别和头发颜色的特征组合上略显混乱。又比如让“美国队长和钢铁侠并肩作战”。可以看到生成的结果明显有美国队长和钢铁侠的特征,只是具体的元素放在了不同的人身上(比如拿着美国队长盾牌的钢铁侠)。如果是特别详细的前景和背景,模型可能无法生成。例如,输入文本是:两只狗穿着海盗船上的罗马士兵,通过望远镜看着纽约市。海盗船上两条打扮成罗马士兵的狗透过望远镜看着纽约市。这次DALL-E2直接罢工了。博文作者搞了半个小时也没搞明白。最后,他不得不在“纽约市和海盗船”或“带望远镜的狗和罗马士兵的制服”之间做出选择。Dall-E2可以使用城市、图书馆书架等通用背景生成图像,但如果这不是图像的主要焦点,则往往很难实现更精细的细节。虽然DALL-E2可以生成常见的物体,比如各种花哨的椅子,但如果让它生成“奥拓自行车”,生成的画面有点像自行车,但又不完全是。在GoogleImages下搜索到的OttoBicycle如下。DALL-E2也无法拼写,但偶尔会完全巧合地正确拼写单词,例如让它在停车标志上写下STOP。虽然该模型确实生成了一些“可识别”的英文字母,但链接的语义与预期的单词仍然存在差异,这也是DALL-E2不如第一代DALL-E的原因。在生成与乐器相关的图像时,DALL-E2似乎能记住弹奏时人手的位置,但没有琴弦,弹奏起来有些别扭。DALL-E2还提供了编辑功能。例如,生成图像后,您可以使用光标突出显示其区域并添加修改的完整说明。但是这个功能并不总是有效的。比如你想在原图上加个“短发”,编辑功能总能在奇怪的地方加点东西。技术仍在更新和发展中,期待DALL-E3!