当前位置: 首页 > 科技观察

告别视频通话的“渣画质”,英伟达新算法最高压缩90%

时间:2023-03-14 18:35:13 科技观察

为了让网速慢的用户也能使用高清通话,英伟达绞尽脑汁。他们开发的新AI算法可以将视频通话流量压缩高达90%。与其他视频相比,通话的场景比较简单,基本上只有人的头部在动。因此,只要能够对头像数据进行大规模压缩,就可以大大节省流量。Nvidia的新算法facevid2vid就是从这一点开始的。只要需要一张图片,就可以重构出各种头部姿势图片。H.264视频所需的带宽是这种新算法的2~12倍。从前面的演示也可以看出,如果两者使用相同的码率,那么H.264视频几乎是无法使用的。转脸不扭曲Nvidia提供了试用demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(滚转角)三个方向任意旋转。输入一张人脸,每个方向最多可旋转30度。下面是三个方向旋转到最大角度生成的图像。与之前的方法相比,Nvidia的技术即使在面部大幅旋转时也不会扭曲面部。不过图片毕竟是不动的,还差一步把生成的人脸放到动视频中。为了合成面部视频,我们使用上传的清晰照片作为源图像来获取外观特征。然后,以视频中的逐帧图像为基础重建视频,从中提取面部表情、头部姿势等信息。表情和姿势这两个数据可以通过关键点进行编码,从而将人物的身份信息和动作信息分离。只要传输视频时有运动信息,就可以节省流量。从源图像s中,我们得到两组数据:关键点坐标x和雅可比矩阵J。这两组参数与人脸的具体特征无关,只包含人的几何特征。其中,雅可比矩阵表示如何通过仿射变换将关键点周围的局部补丁转换为另一幅图像中的补丁。在身份雅可比行列式的情况下,补丁将被直接复制并粘贴到新位置。下图展示了前5个关键点的计算过程。给定源图像和模型预测的规范关键点。从运动视频估计的旋转和平移应用于关键点,驱动头部姿势的变化。然后可以感测表情的变形以将关键点调整到目标表情。接下来开始合成视频。源和运动关键点及其雅可比矩阵用于估计流wk,从生成的流中组合掩码m,这两个集合的线性组合产生合成流场w。然后输入人脸特征f生成输出图像y。这种方式不仅可以用于视频通话,还有其他“新玩法”。比如你觉得某个角色的头像有点歪,可以手动输入修正后的数据,把脸拉直。或者,利用一个人的面部特征点和另一个人的雅可比矩阵来实现面部视频运动的传递。团队简介本文的第一作者是NVIDIA高级研究员Ting-ChunWang。文章通讯作者为英伟达知名研究员刘明宇。如果你长期关注CV领域,你一定对这两位作者非常熟悉。他们在imagestyletransfer、GAN等方面做了大量的工作。△GauGAN和GauGAN之前有过多次合作。例如。Unsupervisedimagetransfernetwork(NIPS2017),以及从涂鸦生成照片的GauGAN(CVPR2019),都是出自这两个人之手。项目页面:https://nvlabs.github.io/face-vid2vid/论文地址:https://arxiv.org/abs/2011.15126