当前位置: 首页 > 科技观察

这段视频火爆网络,谷歌把AI视频造假太真实太容易了

时间:2023-03-19 20:01:51 科技观察

家人,AI制作视频今天已经被推到了舆论的风口浪尖。原因是有人在网上发了这样一只小企鹅的视频:而这个将近50秒的视频的诞生,竟然只靠6句话!网友们还在陆续发布这款AI的其他杰作:这次喂给它的提示词也极短,只有4行:这样的“所写即所得”,丝滑连贯的视频生成方式,也让不少网友感叹:未来已来。甚至有人开始“散播仇恨”,说AI正在以各种方式摧毁这个行业……于是很多人问道:“这是哪家新的AI公司?”但眼尖的网友发现,它其实是一位“老朋友”——谷歌在去年10月发布了一款文本转视频(Text-to-Video)模型:Phenaki。只需要一个提示词,分分钟就可以生成一个两分钟的视频。与Phenaki刚发布时相比,谷歌又推出了一波新操作。那么现在就让我们来看看这些新视频吧~打字生成的视频和以往AI生成的视频不一样。Phenaki最大的特点就是有故事,有篇幅。例如,我们再描述一下这个场景:在未来的城市里,交通很复杂。就在这时,一艘外星飞船抵达了这座城市。随着镜头拉近,画面进入飞船内部;然后摄像机继续沿着船内的走廊前进,直到看到一名宇航员在蓝色房间的键盘上打字。镜头逐渐移到宇航员的左侧,蓝色的海洋出现在他的身后,鱼儿在水中游弋;图片迅速放大并聚焦在一条鱼身上。然后镜头迅速浮出海面,直到看到高楼林立的未来城市;摄像机迅速放大到撞到大楼的办公室。这时,一只狮子突然跳上书桌开始奔跑;镜头先是对准了狮子的脸,再拉远时,狮子已经变成了西装革履的“兽人”。最后,镜头从办公室拉出来,鸟瞰夕阳下的城市。想必很多朋友在阅读本文时,脑海中已经有了相应的画面。和你脑海中构想的画面一致吗?总的来说,即便是面对这种脑洞大开的场景提示,这个AI也做到了无缝衔接。也难怪网友们在看完这段视频后都惊呼“(科技)发展的真快”。至于长度较短的提示词,Phenaki就更容易了。例如,给Phenaki喂这个文本:一只逼真的泰迪熊正在潜水;然后它慢慢浮出水面;走上海滩;镜头拉远,泰迪熊在海边的篝火旁散步。还没看够?这是另一段,这次是不同的主角:在火星上,宇航员走过一个水坑,他的轮廓倒映在水中;他在水边跳舞;然后宇航员开始遛狗;最后他和小狗一起看火星看烟花。谷歌早些时候发布Phenaki时,也展示了通过向Phenaki输入初始帧和提示词来生成视频的能力。例如,给定这样一张静态图片:然后给它Phenaki一个简单的“feed”语句:白猫用爪子触摸相机。效果出来了:还是以这张图为基础,把提示词改成“一只白猫打哈欠”,效果是这样的:当然视频整体风格可以任意切换。网友:视频行业需要被AI冲击了吗?但除了Phenaki,谷歌当时还发布了ImagenVideo,可以生成1280*768分辨率、每秒24帧的高清视频片段。它基于图像生成SOTA模型Imagen,表现出三种特殊能力:可以理解并生成不同艺术风格、水彩、像素甚至梵高风格的作品,可以理解物体的3D结构,继承了Imagen早期准确描述文本的能力是的,Meta也发布了Make-A-Video,不仅可以通过文字转换视频,还可以根据图片生成视频,比如:将静态图片转换成视频插帧:根据前后两张图片生成视频后。在原视频Video的基础上生成新的视频...对于这种雨后春笋般冒出来的生成视频模型,难免会有人担心:当然也有人认为时机未到:0-1总是很快,而1-100仍然很长。不过,也有网友已经开始期待靠AI拿奥斯卡了:AI要多久才能成为新的视频剪辑师,或者拿下奥斯卡?原理介绍再来说说Phenaki。很多网友很好奇它是如何通过文字生成这么丝滑的视频的?简单来说,与以往的生成视频模型相比,Phenaki更注重时长的任意性和连贯性。Phenaki生成任意长度视频的能力主要归功于一种新的编码器-解码器架构:C-ViViT。它是ViViT的因果变体,能够将视频压缩为离散嵌入。要知道,以往的视频压缩,要么编码器不能及时压缩视频,导致最终生成的视频太短,比如VQ-GAN,要么编码器只支持固定的视频长度,并且最终生成的视频长度不能随意调整,比如VideoVQVAE。但C-ViViT不同。可以说兼顾了以上两种架构的优点。它可以在时间和空间维度上对视频进行压缩,在保持时间自回归的同时,还可以自回归生成任意长度的视频。.C-ViViT可以让模型生成任意长度的视频,那么最终视频的逻辑性如何保证呢?这取决于Phenaki的另一个重要部分:双向Transformer。其中,为了节省时间,采样步长是固定的,在处理文本提示的过程中,可以同时预测不同的视频token。这样,结合前述,C-ViViT可以在时间和空间维度上对视频进行压缩,压缩后的token是时间逻辑的。也就是说,mask在这些token上训练出来的Transformer也有时序逻辑,最终生成视频的连贯性自然得到保证。如果您想了解更多关于Phenaki的信息,可以在这里查看。费纳基:https://phenaki.github.io