当前位置: 首页 > 科技观察

南洋理工大学、香港中文大学Talk-to-Edit、对话实现高粒度人脸编辑

时间:2023-03-13 20:23:24 科技观察

南洋理工大学和香港中文大学研究人员提出交互式人脸编辑框架Talk-to-Edit、Fine-细粒度的属性操作可以通过用户和系统之间的对话来执行。此外,该研究还创建了视觉语言人脸编辑数据集CelebA-Dialog,以促进大规模研究。想改变你的发型吗?想知道20年后的你会是什么样子吗?你还在为P图没有效果而烦恼吗?快来试试这个“Talk-to-Edit”吧,告诉它你想怎么编辑,分分钟帮你搞定。话不多说,先看图:用户通过与系统对话完成人脸编辑:编辑人脸的各种特征:编辑帅哥美女(使用GAN反演):本研究来自南洋TechnologicalUniversity,HongKongChineseTalk-to-Edit是该大学提出的交互式人脸编辑框架,可以通过用户与系统之间的对话进行细粒度的属性操作。此外,该研究还创建了视觉语言人脸编辑数据集CelebA-Dialog,以促进大规模研究。论文地址:https://arxiv.org/abs/2109.04425代码:https://github.com/yumingj/Talk-to-Edit项目页面:https://www.mmlab-ntu.com/project/talkedit/index.html实验室主页:https://www.mmlab-ntu.com方法与结果本研究提出的Talk-to-Editpipeline如下图所示:ThisstudyusesSemanticFieldtoachievecontinuousandHighlygranularand可控编辑对话功能由LanguageEncoder和Talk模块实现。接下来解释一下各个模块的工作原理和作用。(1)语义场背景:GAN[1,2]可以根据潜在空间中不同的隐藏向量生成不同的图片。基于隐空间的图像编辑方法[3,4,5,6,7]利用预训练的GAN及其隐空间控制改变一张图片对应的隐向量,从而间接实现对图片的编辑。然而,这些方法假设编辑人脸的某个特征可以通过在潜在空间中沿某个方向“走一条直线”来实现(如下图(b)中的棕色路径(1)所示)。本研究采用的方法抛开“走直线”的假设,在“走”的过程中,根据此刻的隐向量不断寻找当前最优的前进方向(如黑色路径所示)(2)在上面的(b)中)。因此,研究者在隐空间中构建一个向量场来表示每个隐向量的最佳“前进方向”,并使隐向量沿着当前隐向量的最佳“前进方向”移动,从而改变隐向量的某种语义特征。图片。称这个向量场为语义场,即SemanticField。studyedit相当于沿着矢量场的场线向电势增加最快的方向移动。这里的势是指某种特征的程度。例如编辑特征“刘海”时,隐藏向量沿着场线向刘海生长最快的方向移动(如上图(2)中(b)中黑色路径所示)。SemanticField有两个特点:1)对于同一个人,如果某个属性不断变化,则需要的“bestwayforward”也是不断变化的。2)编辑同一个属性时,对应的“最佳方向”因人而异。该研究使用神经网络来模拟语义场,并使用上面(a)所示的方法训练语义场。更多实现细节,请参考论文和代码。如下表所示,实验结果表明,与假定“走直线”的基线相比,本研究方法在人脸编辑过程中能更好地保留人的身份,减少影响在编辑某个语义特征时对其他语义特征的影响。不相关语义特征的变化。如下图,比较明显:(2)LanguageEncoder和TalkModule为了给用户提供更方便直观的交互方式,本研究使用对话来让用户实现编辑。Talk-to-Edit使用基于LSTM的LanguageEncoder来理解用户的编辑需求,并将编码后的编辑需求传递给SemanticField来指导编辑器。Talk模块可以在每一轮编辑之后向用户确认细粒度编辑的程度,比如向用户确认当前的笑容是否恰到好处,是否需要另外一个文件。Talk模块还可以为用户提供其他编辑建议。例如,系统发现用户从未尝试过编辑眼镜,于是询问用户是否要为照片添加眼镜。CelebA-Dialog数据集基于CelebA[8]数据集。本研究为研究社区提供了CelebA-Dialog数据集:(1)该研究为每个图像提供了高级细粒度特征注释。如上图所示,根据笑容的灿烂程度,将“微笑”的语义特征分为6个等级。CelebA-Dialog准确地标记了每张图像中的“笑”属于6个类别中的哪一个。(2)本研究提供了丰富的自然语言描述,包括每幅图像的每个语义特征的高粒度自然语言描述(图像标题),以及用户对图像编辑的请求(用户请求)。CelebA-Dialog可以为多种任务提供监督,例如高度细粒度的人脸特征识别、基于自然语言的人脸生成和编辑等。在Talk-to-Edit的工作中,研究使用了CelebA-Dialog的高-细粒度特征标注训练高细粒度人脸特征预测器,从而为语义场的训练提供高细粒度监督。总结(1)本研究提出了一种基于对话的、高度细粒度的人脸编辑系统:Talk-to-Edit。(2)本研究提出了SemanticField,在GAN的隐空间中学习一个语义场,通过在潜在空间中沿着场线“行走”,实现连续细粒度的人脸特征编辑。(3)本研究为研究社区贡献了一个大规模数据集CelebA-Dialog。而且我相信它对未来的高粒度人脸编辑任务和自然语言驱动的视觉任务非常有帮助。Talk-to-Edit的更多强大功能: