本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处转载。镜头切换自然,节奏时快时慢。制作如此高质量的视频需要什么样的专业剪辑技巧?答案是,不用剪,写就可以了。例如,要编辑长颈鹿的片段,你只需要告诉AI:长颈鹿是世界上最高的动物,并且以它的长腿和长脖子而闻名。长颈鹿是世界上最高的动物,以其长长的腿和长长的脖子而闻名于世。它的脖子上长着棕色的鬃毛,头上长着两只毛茸茸的角。AI可以自动编辑完成这样一张图片:首先展示长颈鹿群的全貌。然后镜头切换到一只奔跑的长颈鹿,炫耀它的长腿和脖子。按照说明,让我们一起来张鬃毛和牛角的特写吧,一起努力吧!是的,再也不用纠结于选材,一帧一帧地来回折腾:只需将脑海中的想法转化为简短的文字,这个叫Write-A-Video的AI就能读懂你的心,从选材中到剪辑,一站式完成创作。这是由北航、清华、哈佛和以色列荷兹利亚交叉学科研究中心的科学家联合打造的最新AI神器。它只需要一个主题脚本来生成视频。用文字制作视频现在,准备好材料,我们来看看Write-A-Video是如何“写”出视频的。整个过程分为三个步骤。在第一步中,用户以文本形式提供输入。Write-A-Video会挑选出句子中的关键词。第二步,Write-A-Video会通过关键词在素材库中挑选出匹配的候选片段。文本与镜头的视觉语义匹配主要包括两个步骤:关键词匹配和视觉语义嵌入。首先,AI会根据剧本从素材库中检索所有带有关键词标签的视频片段。素材库中的所有视频都被分割成快照进行语义匹配,用户在下一步剪辑视频时可以使用电影术语来指导AI创作。Write-A-Video的作者、北航王淼老师表示,Write-A-Video允许用户在输入文本中使用电影术语来探索每个场景的不同视觉风格,比如调整电影的节奏,画面调整等此外,使用基于直方图的分割算法,如果HSV色域中帧间的直方图差异超过80%,而跟踪到的SURF关键点匹配度不超过80%,则算法将以这两帧作为边界,分裂射击。太长(>30s)或太短(<2s)的镜头也会被丢弃,因为短镜头看起来很糟糕,而长镜头会降低效率和可变性。然后,视觉语义嵌入技术对每个检索到的镜头进行匹配得分计算,并选择排名最高的镜头作为候选镜头。这里使用的方法是VSE++(论文地址见文末)。这种方法可以将跨模型内容编码到联合特征空间中,例如链接文本和镜头。在embedding空间中,镜头中每十帧提取一帧,计算其与文本的余弦相似度,最后取平均值,即为判断镜头是否可以被选中的最终分数.第三步,将这些镜头组合在一起,完成视频剪辑。这一步其实就是Write-A-Video对镜头的混合优化。而且它也有自己的审美标准。首先,画面要鲜艳生动。第二,镜头不能晃动太多。最后,避免断断续续的跳跃剪辑和相反的镜头移动。值得一提的是,Write-A-Video非常人性化。寻找对应的镜头、剪切、重新排列都可以通过文本编辑的形式完成,例如添加、删除文本、移动句子。您不需要掌握编辑技巧,更不用说键入代码了。不仅如此,在接下来的视频中,你会发现打字的文字可以转化为配音旁白,烘托影片的氛围。而且,旁白和视频是完全同步的,对应的很自然。提到白金汉宫,镜头自然而然地转向了白金汉宫的正面。说到皇家卫队,图就是表演中给皇家卫队的。研究团队表示,与商业逐帧处理视频编辑器相比,使用Write-A-Video的创建速度要快得多。使用Write-A-Video,即使是新手也能以更快的速度(13分钟:7小时)完成视频编辑任务,而且质量与专业编辑相差不远。在刚刚结束的SIGGRAPHAsia2019大会上,研究团队报告并展示了Write-A-Video的成果,得到了国际同行的广泛认可。王淼博士,北航清华团队Write-A-Video第一作者,现任北航虚拟现实技术与系统国家重点实验室助理研究员,硕士生导师。本科毕业于西安电子科技大学,2016年获清华大学博士学位,师从论文通讯作者清华大学计算机系胡世民教授。论文作者之一杨国伟参与该项目时只是一名本科生,目前正在攻读博士学位。清华大学计算机系。另外两位作者是菲尔兹奖获得者、哈佛大学教授、美籍华裔数学家丘成桐,以及以色列荷兹利亚跨学科研究中心主任阿里尔沙米尔。
