准备好迎接数字人共存的赛博朋克世界了吗?作为未来虚拟世界诸多应用的中坚力量,如何创造出栩栩如生的虚拟数字人,一直是与计算机视觉、计算机图形学、多媒体等人工智能相关学科密切相关的重要研究课题。近日,由中国科学技术大学鲁深石科技有限公司、浙江大学和清华大学联合开发的AD-NeRF技术引起了学术界和业界的关注。基于最近大火的神经辐射场(NeRF:NeuralRadianceFields)技术,中国科学技术大学张居勇课题组的研究人员提出了一种直接从语音信号生成说话人视频的算法。只需目标人几分钟的通话视频,该方法即可实现人的超逼真图像再现和语音驾驶。论文地址:https://arxiv.org/pdf/2103.11078.pdf项目地址:https://yudongguo.github.io/ADNeRF/随着人工智能技术走向稳步落地,“让虚拟人的构建触手可及”,改造和探索新技术在社会中的实际应用,已成为学术界和工业界的普遍共识。在这个过程中,“数字虚拟人”从主流角度来看无疑是一个非常“抢眼”的概念。根据目标角色的最终呈现形式,数字化身可分为2D和3D类型,或动画、拟人、真人。2021年春晚,虚拟偶像洛天依将在全国人民合家团圆的时刻首次登上电视剧舞台。3月两会期间,央视打造的数字虚拟记者“小C”以形象生动的人物形象,承担起实时连线人大代表、播报政策新闻的重任。从上到下分别是三星的虚拟数字人Neon、虚拟偶像洛天依、电影角色阿丽塔。根据爱奇艺早前发布的《2019 虚拟偶像观察报告》,如今中国至少有3.9亿人在关注虚拟偶像。在抖音、快手、B站等各大短视频平台上,活跃着至少数万名数字虚拟人主播。不仅在泛娱乐领域,数字虚拟人还为其他一系列社交应用提供了广阔的想象空间:虚拟医生、虚拟教师、虚拟客服、虚拟导购等。计算机交互中,如何高效地构建虚拟人的逼真外貌、自然表情和动作一直是该领域备受关注的研究热点。其中,基于传统的计算机图形和动画技术,构建生动逼真的虚拟人行为动态(如与语音内容相匹配的嘴型和表情等)需要专业复杂的人类工作,极大地限制了虚拟数字人的发展。.广泛使用。近年来,基于深度学习方法的虚拟人构建技术取得了很好的突破。然而,在现有的基于学习的方法中,无论是基于图像的生成对抗网络(GAN)方法,还是基于3D人脸重建模型的人脸编辑-渲染方法,都存在依赖大量数据等问题训练数据并产生质量差的结果。问题。以Suwajanakorn等人提出的SynthesizingObama工作为例。以2017年为例。为了实现奥巴马单一角色的语音驱动,该方法使用了奥巴马本人长达14小时的视频训练数据,以保证更好的图像和视频效果。但是很多基于GAN的人脸和语音驱动的工作受限于GAN模型本身的训练复杂度,通常只能输出分辨率不超过256x256的视频结果。基于GAN的方法生成低分辨率图像,而基于神经辐射场渲染的AD-NeRF支持任意分辨率渲染。在AD-NeRF方法中,只需要目标人三到五分钟的通话视频,就可以达到用任何声音驱动人的效果。不仅如此,生成的结果具有高清的画质和自然的面部表情,远优于以往的方法。这种“价廉物美”的方法,只需要少量的训练数据就可以生成高质量的最终结果,无疑为创建头像提供了一个强大而便捷的工具。面部魔术是如何完成的?以下示例图展示了AD-NeRF工作的算法流程框架:(1)语音到动态神经辐射场的跨模态映射:为了描述说话人脸、躯干和背景的高质量细节和动态,作者将DeepSpeech的语音特征与最新的神经辐射场方法(NeRF)相结合,该方法模拟了一个隐函数F,其输入包括假设的相机位置、视线方向和相应的语音特征,并输出沿每个连续位置ray的颜色和密度值,通过沿射线积分,确定射线指向的像素点的最终颜色值。(2)完整稳定的头部和身体躯干合成:针对人脸说话过程中面部和躯干运动不完全统一的现象,作者将原始神经辐射场模型拆分为两个隐藏部分自己的分工。模型表示。首先,他们对训练数据中的每一帧图像进行语义分割,其中人脸部分使用多帧连续光流估计三维运动参数,直接转化为假设的相机外参数,用于训练头部的神经辐射场。身体模块在头部模型的基础上,以头部运动参数作为附加条件信息来控制身体部位的建模。这种设计的明显好处是解决了头身姿势不一致导致的抖动效应:(3)支持背景和透视编辑:由于神经辐射场描述的隐式3D信息,作者进一步探索了任??意后续应用更换背景和改变视角。要实现这些应用,只需要在输入测试音频的同时改变假定的摄像机外部参数和背景图像。这些应用的示例如下图所示:AD-NeRF带来了哪些可能性?曾几何时,数字人类是科幻小说和电影中赛博朋克的热门题材;现在,随着数字虚拟人创作技术的迭代更新,这个充满未来感的概念正以前所未有的速度走进平凡。平民之家。那么,AD-NeRF将带来哪些实际的虚拟人应用技术可能呢?首先是在视频会议领域,如上图,AD-NeRF可以轻松支持任意头像的语音驱动。对于带宽要求较大的视频会议应用,可能不需要实时传输视频编解码器信号,但需要音频信号来驱动发言人本身的虚像。AD-NeRF支持的背景替换和姿势编辑,结合AR头盔等设备,让你仿佛身临其境,在可任意营造的三维场景中互相交谈。其次,由于AD-NeRF只需要几分钟的视频来训练特定角色的动态辐射场。如果你想留下一张至亲好友的数字图像,并且可以随时与他面对面交流,那么AD-NeRF的算法设计将大大简化这张数字图像的制作难度——赛博空间永生可能不再是挑战。梦。最后,AD-NeRF无疑具有强大的潜力来改进目前商业化的数字虚拟人构建过程。无论是打造逼真的虚拟主播,亲切的虚拟导购,还是严肃的虚拟老师等等,AD-NeRF都能“得心应手”。只需要一个有表现力的演员录制一段语音视频,剩下的就交给自动化的语音驱动技术,在商业创新上有着非常广阔的应用前景。另一方面,在拥有强大技术赋能的同时,越来越低的门槛和数据要求也让数字虚拟人的创作面临诸多风险和争议。例如,利用虚假数字图像盗取他人财物或伪造视频散布虚假消息,甚至故意贬低他人、侮辱人格等。去年,DeepFake、Zao“AI换脸”等一系列人工智能应用引发了全社会基于道德和隐私的广泛讨论。“换脸检测”研究。现在,AD-NeRF从应用层面使用了更先进的底层算法,即通过神经辐射场隐式建模3D运动细节,渲染出完整逼真的画框,同时还能区分真假人脸视频和Detection,呈现更有价值的挑战。“魔高一丈,道高一丈。”出于安全和隐私保护的需要,未来更强大的防伪和检测算法必将与虚拟人技术成为共同竞争、共同发展的双星。从公平正义的角度来看,虚拟人作为数字时代的产物,同样需要纳入法律法规和行业规范的约束。相信在未来,虚拟数字人将成为智能、便捷、可靠的代名词,为改善这个世界的信息交流和人际交往提供更大的帮助。
