当前位置: 首页 > 科技观察

将脚本变成视频只是AI的一个步骤

时间:2023-03-22 11:05:30 科技观察

Meta在宣布这项工作的博客文章中说:“生成式AI研究推动了创造性表达的进化。只需几句话或几行文字,Make-A-Video可以将想象力带入生活,创作出独一无二的充满鲜艳色彩和风景的视频。”MetaCEOGe的马克扎克伯格称这项工作是Facebook的“惊人进步”,并补充道:“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何随时间变化。“视频不超过5秒,不包含任何音频,但包含大量提示。判断模型性能的最佳方法是查看其输出。但是,目前不允许任何人访问该模型。这意味着这些剪辑可能是由开发人员精心挑选的,以尽可能最好的方式展示系统。同样,虽然这些视频显然是由计算机生成的,但此类AI模型的输出将在不久的将来迅速提高。相比之下,仅几年来,AI图像生成器已经从创建难以理解的边界图片发展为逼真的内容。尽管视频方面的进展可能会因主题近乎无限的复杂性而放缓,但无缝视频生成的价值将激励许多机构和公司投入大量精力该项目的资源。与文本到图像模型一样,存在有害应用程序的可能性。在宣布制作视频的博客文章中,Meta指出视频生成工具“对于创作者和艺术家来说可能是无价的。”但是,就像文本到图像的模式一样,前景令人担忧。这些工具的输出可能用于虚假信息、宣传。Meta表示,它希望“对如何构建这种生成式AI系统进行深思熟虑”,并且迄今为止只发表了一篇关于制作视频模型的论文。该公司表示计划发布该系统的演示版,但没有说明何时或如何限制对该模型的访问。值得一提的是,Meta并不是唯一一家致力于AI视频生成器的机构。今年早些时候,清华大学和北京人工智能研究院(BAAI)的一组研究人员发布了他们自己的文本转视频模型,名为CogVideo。在一篇描述该模型的论文中,Meta研究人员指出,Make-A-Video正在接受成对的图像和字幕以及未标记的视频剪辑的训练。训练内容来自两个数据集(WebVid-10M和HD-VILA-100M),它们共同包含数百万个视频,跨越数十万小时的镜头。这包括由Shutterstock等网站创建并从网络上抓取的库存视频剪辑。研究人员在他们的论文中指出,除了模糊的镜头和断断续续的动画之外,该模型还有许多技术局限性。例如,他们的训练方法无法学习只能由观看视频的人推断的信息——例如,挥手的视频是从左到右还是从右到左。其他问题包括生成超过5秒的视频、包含多个场景和事件的视频以及更高的分辨率。Make-A-Video目前输出16帧视频,分辨率为64*64像素,然后使用单独的人工智能模型将其尺寸增加到768*768。Meta的团队还指出,就像所有使用从网络上抓取的数据训练的人工智能模型一样,制作视频会学习并可能夸大社会偏见,包括有害的偏见。在文本到图像模型中,这些偏见通常会强化社会偏见。例如,让我们生成一幅“恐怖分子”的图像,它可能描绘了一个戴着头巾的人。然而,在没有开放访问的情况下,很难说Meta的模型学到了什么偏见。Meta表示,该公司“正在与技术社区公开分享这一生成性人工智能研究和成果,以征求他们的反馈,并将继续使用我们负责任的人工智能框架来完善和发展我们对这一新兴技术的方法。”作为绘画和视频的人工智能生成器越来越流行,我相信很快(也许已经)会有用于其他艺术(例如音乐)的AI生成工具。