当前位置: 首页 > 科技观察

图像也能传递情感吗?罗彻斯特大学团队提出了一项新的计算机视觉任务

时间:2023-03-16 23:04:58 科技观察

图像风格迁移?言语情感传递?不,是形象情感转移。计算机视觉领域有很多任务,比如物体检测、图像转换、风格迁移等等,但是你听说过“图像情感迁移”吗?来自罗切斯特大学的RogerBo教授团队提出了这项研究任务[1]。与其他计算机视觉任务相比,图像情感传递更具挑战性,需要对图像中的每个对象进行不同的情感传递。本研究提出了一种灵活有效的对象级图像情感迁移框架和一种新模型SentiGAN。实验证明该框架可以有效地进行对象级图像情感迁移。什么是图像情感传递?图像情感迁移是一个有待探索的新研究课题。与图像翻译、图像风格迁移和面部表情迁移任务相比,图像情感迁移侧重于在不改变场景内容的情况下,对图像的整体观感进行更高层次、更抽象的修改。如图1a所示,将浑浊的水变清并为海鸟着色后,传达中性或负面情绪的图像变得积极温暖,而图像中的内容没有改变。与图像翻译和图像风格迁移相比,本研究认为图像情感迁移更具挑战性。困难之一是需要使用不同的规则来对不同类别的对象进行情感传递。这与风格迁移不同,风格迁移是将绘画风格统一添加到图像中的所有对象。如图1所示,为了使输入图像具有积极的情绪,应该将海水迁移成清澈的蓝色,将海鸟迁移成彩色。这两个操作不是基于同一个参考图像,否则会像图1b和1c那样不现实。解决方案为了应对这一挑战,本研究提出了一个有效的框架,可以在对象级别执行图像情感传递。整个过程可以分为两个步骤:1.给定一个输入图像,该框架使用图像描述生成模型和语义分割模型来检测所有对象并找出它们的像素级掩码。结合这两个模型的目标是保持高质量的对象掩码,同时大幅扩展对象集的范围。2.对于输入图像中的每个检测到的对象,使用包含相同对象的参考图像进行情感传递。这种设计成功地解决了上述问题,并保持了框架强大的灵活性,例如,用户可以为输入图像中的每个对象分配不同的情绪。此外,它还允许用户在不提供参考图像的情况下,通过直接输入他们想要分配给每个检测到的对象的情感词汇来进行情感转移(比如输入“五颜六色”代表鸟类,“阳光明媚”代表天空,“壮丽”).有了对象和情感词汇,系统可以自动检索相应的参考图像并进行情感迁移。框架的整体性能由第二步,目标级情感转移决定。这里可以直接应用风格迁移模型,但情感迁移任务要求迁移后的图像看起来自然,没有显式迁移局部模式(如纹理),这是风格迁移模型的固有元素。因此,研究人员转向了MUNIT和DRIT等多模态图像翻译模型。他们可以分离内容和样式信息,为输入图像保留更多基于内容的元素。只需要对这些双域映射模型进行简单的修改,使其适用于情感传递任务,不会显着限制输入和传递图像的域。但是,使用上述模型仍然存在缺点。首先,MUNIT和DRIT最初是为图像级转换任务设计的,在细粒度的对象级传输任务上表现不佳。第二个问题与情绪转移的性质有关。图像情感比轮廓、纹理和绘画风格更敏感,并且往往与对比度、饱和度、亮度和主色等基于颜色的元素相关。理想情况下,我们希望模型能够将输入图像的这些元素完全转移到参考图像。现有的多模态模型通常将视觉表示分解为内容代码和样式代码。Transfer是通过自适应实例归一化(AdaIN)将参考图像/对象的样式代码注入到输入图像/对象的内容代码中。然而,如下图2所示,即使使用相同的样式代码,具有不同内容代码的对象仍然可以获得非常不同的整体颜色分布。这表明现有模型无法充分分离颜色信息和内容代码,导致颜色传递不完整。针对上述不足,本研究提出了一种新的方法,即情感感知GAN(SentiGAN)。对于第一类缺陷,研究创建了相应的对象级损失函数与图像级损失一起训练模型。对于第二个缺陷,其解决方案基于以下观察:额外传递内容代码的全局信息可以更好地传递输入对象的颜色信息。同时,研究人员还通过维护空间信息来防止其他内容信息(如纹理)发生变化。为此,他们使用有效的约束,使得传输对象的内容代码在全局上接近于参考对象的内容代码,但在局部上接近于输入对象的内容代码。这些约束由训练期间的内容分离损失和推理期间的内容对齐步骤强制执行。这项研究表明,这两种方法是互补的,可以显着提高情绪迁移的性能。本研究提出的图像风格迁移框架如下图3所示:该框架的原理如下:给定一张输入图像,首先进行objectmaskextraction,提取出object和对应的mask;然后使用图像描述生成和图像语义分割来获得所有对象和高质量掩码;最后,使用SentiGAN逐个对象地执行情感传递。核心组件SentiGAN的架构如下图所示:实验研究人员创建了三个任务来评估图像情感传递模型的性能。这三个任务都基于从测试集中选择的50张输入图像,这些图像具有准确的对象掩码和相对中性或模糊的情绪信息(以方便转移到积极或消极的情绪方向)。任务1:粗粒度情感转移第一个任务旨在衡量模型在从图像执行粗粒度情感转移时的性能。研究人员训练了一个图像情感二元分类模型来预测和提取测试集中的典型正面图像和典型负面图像。对于每张输入图像,不同的情感迁移模型可以对来自十组采样正参考图像和十组采样负参考图像的输入图像进行情感迁移。各情感迁移模型的图像情感分类模型评价结果见下表1:从表1可以看出,SentiGAN取得了最高的平均真率和真负率。这表明SentiGAN可以有效地从图像进行粗粒度的情感迁移。此外,研究人员要求五名志愿者从SentiGAN输出的500个传输图像对(正面和负面)中选择正面图像。如表2所示,选择正确的概率为72.4%,这表明用户可以观察到情感传递效果。图5显示了SentiGAN输出的情感转移示例。Task2:Verifytheeffectofobject-levelemotiontransfer第二个任务是验证object-levelemotiontransfer的效果。研究人员要求SentiGAN执行三种迁移策略——对象级迁移、全局迁移和非对应对象的对象级迁移——并生成了50组迁移图像。请五名志愿者在每组中选择最真实的图像,每组负责50个组。如表3所示,对于大多数组,志愿者认为目标级情感转移生成的图像是最真实的,这与图7中的示例表现一致。任务3:转移图像与参考图像之间的情感一致性image第三个任务是评估传输图像和参考图像之间的情感一致性。研究人员为每张输入图像收集了不同模型预测的迁移图像,并要求五名志愿者选择一张或多张与参考图像情感最一致的迁移图像。如下表4所示,SentiGAN以较大的优势实现了最高的选择率,表明它在从参考图像转移情感方面取得了最佳性能。有关示例,请参见图6。罗杰波教授团队还提出了一种基于全局的图像情感迁移方法[2],感兴趣的读者可以查看原论文。