一句话就能改变视频的主角，谷歌新“AI导演”惊呆网友：画质太好了

时间：2023-03-14 23:06:45 科技观察

来源。谷歌发布了新的“AI导演”，甚至可以一句话改变视频的主角。看，绿草地上，一只小熊在跳舞。现在的熊都这么文艺了？？不不不！原来在草地上的那个，竟然是一只猴子。要从猴子变成熊，只需要对这个AI说一句话：一只小熊随着音乐的节拍跳舞，扭动着它的整个身体。（一只熊随着欢快的音乐起舞跳跃，全身动起来）除了“变幻”视频，这款名为Dreamix的AI还能把静态图片变成动画，而且一句话就搞定。比如给AI看一张“海龟游泳照片”，然后告诉它：拍到一只海龟在水下游泳，后面有一条鲨鱼正在靠近。（海龟水下拍，后面有鲨鱼逼近）好家伙，一句话，不仅让海龟游了起来，还凭空添了一条鲨鱼。这样的效果让很多围观的人都为之点赞。甚至有人断言，未来两年AIGC将继续掀起一股热潮，甚至比千年发展还要疯狂。导演的视频一出，一句话就能给好评。这个人工智能怎么样？让我们多看看他的“导演”作品来感受一下吧。首先，在转换视频角色方面，这是原始领域：这是AI放火的领域：这是人类手写：这是AI生成的机器人手写：也是基于人写的视频，如果把提示语句改成“人手在画圆”，生成的效果会不一样：而从静态图到动画，原图是雾蒙蒙的丛林：AI加了一个runningdogtothisforestTheunicorn，镜头根据句子提示拉远。还有这样一张河谷图：AI不仅让溪流流动，还把水牛加到岸边洗澡，把飞鸟加到天上。看到这里，可能有人会觉得来不及了：动画做出来了，但是画质也牺牲了很多。那你不妨多给AI看几张图。比如一口气给AI看7张玩具火警的照片：然后让它根据一句话生成视频，画质会清晰很多。至于这位“AI导演”是如何做到的，谷歌表示，关键在于“老朋友”扩散模型（DiffusionModel）。扩散模型也是当红AIGC绘画神器DALL·E2的核心。谷歌研究人员指出，其实此前已经有类似的“文本生成视频”AI，但如果视频扩散模型只是在输入视频上进行微调，运动变化的程度将受到限制。这个AI的不同之处在于，该团队使用了一个“混合目标”，除了对原始目标进行微调之外，它还可以对一组乱序的帧进行微调。他们在深度学习中采用了一种特殊的注意力机制：MaskedTemporalAttention，帮助模型专注于输入信息的特定部分，忽略其他不相关的部分。——这提高了模型处理序列数据的能力，生成的视频中的动态更加多样，效果更加自然。在diffusionmodel和MaskedTemporalAttention的加持下，其实已经省略了视频换主角的输入，只需要fine-tuning，结果的保真度相当不错。

上一篇：分析人士发现，工业物联网将有助于5G的发展

下一篇：DellBoomi云平台--聚云之师

一句话就能改变视频的主角，谷歌新“AI导演”惊呆网友：画质太好了相关文章