2月16日,OpenAI再次扔出深度炸弹,发布了第一个Vincent视频模型Sora。
据介绍,Sora可以直接输出长达60秒的视频,并且包含高度详细的背景、复杂的多角度镜头以及多个情感角色。
目前官网已更新48个视频演示。
在这些演示中,Sora不仅可以准确地呈现细节,还可以理解物理世界中物体的存在并生成情感丰富的角色。
该模型还可以根据提示、静态图像生成视频,甚至填充现有视频中缺失的帧。
例如,一个Prompt(大语言模型中的提示词)的描述是:东京街头,一位时尚女士穿梭在充满温暖霓虹灯和动感城市标志的街道上。
在Sora生成的视频中,一名女子穿着黑色皮夹克和红色裙子走在霓虹灯街道上。
不仅主体连贯稳定,而且还有多个镜头,包括从街景慢慢切到女人面部表情的特写,以及潮湿的街道地板反射霓虹灯的光影效果。
另一个提示是一只猫试图叫醒熟睡的主人并要求吃早餐。
主人试图不理睬猫,但猫却尝试了新把戏。
最后,主人从枕头底下拿出了藏着的零食,让猫自己走了。
多呆一会儿。
在这段人工智能生成的视频中,猫甚至学会了踩自己的乳房,甚至轻轻触摸主人的鼻子,这接近现实世界中猫的真实反应。
OpenAI 表示,它正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。
OpenAI 随后解释了 Sora 的工作原理。
Sora是一种扩散模型,从一段类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声。
视频也从最初的随机像素转变为清晰的图像场景。
Sora采用Transformer架构,具有很强的可扩展性。
视频和图像是称为“补丁”的较小数据单元的集合。
每个“补丁”类似于GPT中的一个标签(Token)。
通过统一的数据表达方法,可以在更广泛的视觉数据上进行训练。
和扩散变化,包括不同的时间、分辨率和纵横比。
Sora 基于过去对 DALL·E 和 GPT 的研究。
它利用DALL·E 3的重述提示词技术为视觉模型训练数据生成高度描述性的注释,使模型能够更好地遵循文本指令。
对于Sora目前的弱点,OpenAI指出,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。
该模型还可能混淆线索的空间细节,例如左和右,并且可能难以准确地描述随时间变化的事件,例如遵循特定的相机轨迹。
以本次发布的DEMO“与中国龙一起过年视频”为例,Sora无法准确生成视频中的中文,引起了网友的关注。
有相关人士对此调侃:“是不是因为中文太难了?”然而,任何事件的发生都是一个从无到有,然后从有到完美的过程。
据悉,Sora现已向部分用户开放,以评估关键领域的潜在危害或风险。
同时,OpenAI还邀请了一批视觉艺术家、设计师和电影制作人加入,希望获得宝贵的反馈意见,推动模型进步,更好地辅助创意工作者。
OpenAI提前分享研究进展,旨在与OpenAI之外的人合作并获取反馈,让公众了解即将到来的AI技术新篇章。