当前位置: 首页 > 科技赋能

利用AI剪图,谷歌新应用让你成为各大视频的“主角”

时间:2024-05-22 17:03:34 科技赋能

编辑|百个智东西讯3月2日消息,据Tech Crunch报道,今天,谷歌在You Tube功能中添加了新的AI。

即通过构建的卷积神经网络,用户在拍摄视频时可以自动改变视频背景(抠图)。

据悉,抠图是一种已经使用了几十年的特效技术,但制作起来既耗时又复杂。

例如,拍摄电影时,导演会要求演员在绿幕前表演,然后用电脑数字特效来代替绿幕。

此前,由于计算机每秒至少需要计算30次,因此在移动设备上取代普通RGB图像并不容易。

由此可见改变视频背景是多么困难。

谷歌工程师认为这是一个挑战,并构建了一个卷积神经网络结构,该结构经过数千张标记图像的训练。

通过训练,神经网络可以区分眼睛、头发、眼镜、嘴巴等面部特征,并将这些特征与其他事物区分开来。

为此,Google 工程师进行了一系列优化,减少了需要压缩的数据量。

此外,它还将之前的计算结果作为下一步计算的基础。

虽然看起来有点作弊,但是可以进一步减轻移动设备的负载。

在开发此功能时,具体任务是创建一个二进制掩码,用于计算将视频的每一帧从前景分离到背景所需的时间。

其中,实现跨帧计算掩模时间的一致性是关键点。

目前的方法是使用LSTM或GRU来进行计算,但这对于移动设备来说非常昂贵。

谷歌研究人员通过计算先前计算的掩模作为后来计算的掩模的基础来保持时间一致性,如下所示:(原始帧(左)在其三个颜色通道中分离,并与先前的掩模连接并用作神经网络来预测当前帧的掩模(右))在视频分割过程中,还实现了帧到帧的时间连续性,考虑到诸如视频录制过程中其他人突然出现,导致时间不连续等因素问题。

为了训练其模型适应这些问题,谷歌研究人员通过以下几点对其进行了优化:1.清除之前的掩模,训练神经网络在第一帧和第一个场景角色之间正常工作,并模拟一个场景,其中有人出现在摄像机上。

2. 将其转换为真实的背景蒙版。

通过转换训练,神经网络可以将其调整到前一帧的掩模之前。

3. 转换图像。

此功能可在相机中实现平滑、快速的图像转换。

这样做的结果是它的神经网络在移动设备上运行速度非常快,比如iPhone 7上运行速度+FBS,Pixel 2上40+FBS,而且它的背景替换精度非常高。

删除或替换背景工具对用户来说很有吸引力,因此该功能的推出对很多人来说是个好消息。

想尝试一下这个功能吗?不幸的是,目前该功能仅向 YouTube Stories 用户开放。