来源。谷歌发布了新的“AI导演”,甚至可以一句话改变视频的主角。看,绿草地上,一只小熊在跳舞。现在的熊都这么文艺了??不不不!原来在草地上的那个,竟然是一只猴子。要从猴子变成熊,只需要对这个AI说一句话:一只小熊随着音乐的节拍跳舞,扭动着它的整个身体。(一只熊随着欢快的音乐起舞跳跃,全身动起来)除了“变幻”视频,这款名为Dreamix的AI还能把静态图片变成动画,而且一句话就搞定。比如给AI看一张“海龟游泳照片”,然后告诉它:拍到一只海龟在水下游泳,后面有一条鲨鱼正在靠近。(海龟水下拍,后面有鲨鱼逼近)好家伙,一句话,不仅让海龟游了起来,还凭空添了一条鲨鱼。这样的效果让很多围观的人都为之点赞。甚至有人断言,未来两年AIGC将继续掀起一股热潮,甚至比千年发展还要疯狂。导演的视频一出,一句话就能给好评。这个人工智能怎么样?让我们多看看他的“导演”作品来感受一下吧。首先,在转换视频角色方面,这是原始领域:这是AI放火的领域:这是人类手写:这是AI生成的机器人手写:也是基于人写的视频,如果把提示语句改成“人手在画圆”,生成的效果会不一样:而从静态图到动画,原图是雾蒙蒙的丛林:AI加了一个runningdogtothisforestTheunicorn,镜头根据句子提示拉远。还有这样一张河谷图:AI不仅让溪流流动,还把水牛加到岸边洗澡,把飞鸟加到天上。看到这里,可能有人会觉得来不及了:动画做出来了,但是画质也牺牲了很多。那你不妨多给AI看几张图。比如一口气给AI看7张玩具火警的照片:然后让它根据一句话生成视频,画质会清晰很多。至于这位“AI导演”是如何做到的,谷歌表示,关键在于“老朋友”扩散模型(DiffusionModel)。扩散模型也是当红AIGC绘画神器DALL·E2的核心。谷歌研究人员指出,其实此前已经有类似的“文本生成视频”AI,但如果视频扩散模型只是在输入视频上进行微调,运动变化的程度将受到限制。这个AI的不同之处在于,该团队使用了一个“混合目标”,除了对原始目标进行微调之外,它还可以对一组乱序的帧进行微调。他们在深度学习中采用了一种特殊的注意力机制:MaskedTemporalAttention,帮助模型专注于输入信息的特定部分,忽略其他不相关的部分。——这提高了模型处理序列数据的能力,生成的视频中的动态更加多样,效果更加自然。在diffusionmodel和MaskedTemporalAttention的加持下,其实已经省略了视频换主角的输入,只需要fine-tuning,结果的保真度相当不错。
