当前位置: 首页 > 科技观察

中科大&京东最新成果:让AI像真人一样演讲,手势打得惟妙惟肖

时间:2023-03-12 07:34:30 科技观察

中国科学技术大学&京东最新成果:让AI像真人一样说话,把手势做的惟妙惟肖。人类在说话时自然会产生肢体动作以增强言语。现在,中科大和京东的研究人员也给AI配备了这样的功能——随便丢给它什么类型的语音音频,它就能做出相应的手势:配合起来是不是很自然?对于同一个音频,它也可以生成多种不同的姿势:使用“双流”架构,由于每个人的习惯不同,语音和肢体动作之间没有固定的对应关系,这也导致任务为语音生成手势有点困难。△非常有代表性的意大利语语音手势现有方法大多以某些风格为条件,将语音以确定性的方式映射到相应的身体动作,结果不是特别理想。受语言学研究的启发,作者将语音动作分解为两个互补的部分:姿势模式和节奏动力学,并提出了一种新颖的“speech2gesture”模型——FreeMo。FreeMo采用“双流”架构,一个分支用于主姿态生成,另一个分支用于“跳动节奏”,即对主姿态施加一个小的节奏运动,使最终姿态更加丰富和更自然。如前所述,说话人的姿势主要是习惯性的,没有约定俗成的语义。因此,作者并没有对姿势生成的形式做特别的限制,而是引入了条件采样来学习潜在空间中的各种姿势。为了便于处理,将输入音频分成小段,提取语音特征参数MFCC和语音文本。主要姿势是通过与语音文本进行关键字匹配生成的。语音特征参数MFCC用于产生节奏动作。节奏动作发生器由一个卷积网络构成,具体过程如图:一位是中国科学技术大学的徐静。红色框表示与动作序列的平均姿势的偏移量。通过交换两个序列的偏移量,可以在不影响主要姿势的情况下“调整”模型。更多种类、更自然、更同步FreeMo的训练和测试视频包括一个包含许多电视节目主持人的专用Speech2Gesture数据集。但是这些视频受环境(比如观众的欢呼声)干扰比较严重,主持人的动作可能会受到限制,所以作者也引入了一些TED演讲视频和Youtube视频来进行训练和测试。对比的SOTA模型包括:AudiotoBodyDynamics(Audio2Body)usingRNN,Speech2Gesture(S2G)usingconvolutionalnetwork,SpeechDrivesTemplate(Tmpt,配备了一套姿势模板)MixStAGE(可以为每个speaker生成一套Style)Trimodal-Context(TriCon,也叫RNN,输入包括音频、文本和说话人)一共有三个指标:(1)语音和动作的同步性;(2)动作的多样性;(3)与扬声器实际动作相比的质量水平。结果是FreeMo在这三个指标上超越了5个SOTA模型,取得了最好的成绩。△同步得分,越低越好△多样性和质量水平得分ps。由于五个SOTA模型本质上是学习确定性映射,因此它们不具有多样性。一些更直观的音质对比:左上角是真实音箱的动作,可以看到FreeMo表现最好(Audio2Body也不错)。作者介绍的一位是中国科学技术大学的徐静。通讯作者为京东人工智能平台与研究部人工智能研究院副院长、京东集团技术副总裁、IEEEFellow梅涛。其余三位作者分别是京东人工智能研究员张伟和白亚龙,以及中国科学技术大学孙启斌教授。论文地址:https://arxiv.org/abs/2203.02291代码开源:https://github.com/TheTempAccount/Co-Speech-Motion-Generation