当前位置: 首页 > 科技赋能

国产 Sora 的秘密,藏在这个清华系大模型团队中

时间:2024-05-19 16:32:22 科技赋能

国产Sora的秘密就藏在清华大学这个庞大的模特团队里。

这些年,Sora一直生活在聚光灯下。

马斯克毫不犹豫地赞扬世界,称“人类愿意接受失败”。

在红衣领袖周鸿祎看来,在Sora的帮助下,人类实现AGI将缩短到一两年。

连卖付费课程的微商也用“Sora”重新组装了自己的镰刀。

这股热潮从美国蔓延到中国,从一级市场蔓延到二级市场甚至三级市场,像涟漪一样波及全球。

因为,理想情况下,长视频生成的底层逻辑大约等于世界模型。

十几秒、几十秒的视频,包含了基本图像处理、空间关系、物理规律、因果逻辑等真实规律和知识的映射,从小角度看,可以颠覆表传统的电影和游戏制作。

从大的角度来看,这是迈向通用人工智能的关键一步。

同时,在长视频生成算法中,Sora的技术突破是革命性的。

与传统的Stable Diffusion相比,Sora采用的Diffusion+Transformer架构不仅克服了Stable Diffusion扩展性不足的问题,而且在生成内容的准确性和灵活性上也有了质的飞跃。

唯一美中不足的是Sora算法不是开源的。

不开源,就没有复发的可能;没有复发的可能,即使有管理背景的合伙人把睡前读物改成《Scalable diffusion models with transformers》,投资经理每周还要跑到北京、深圳科技产业园挖三个洞。

统治者,每个人都必须承认一个现实。

虽然视频模特公司众多,但在国内Sora还没有被正式发掘之前,视频模特的淘汰赛或许已经结束了。

行业热闹非凡,但一级市场却经历着前所未有的焦虑。

中国的人工智能企业难道只能眼睁睁地看着自己离Sora越来越远吗? 01“国产Sora”来了?当场上的VC们都快绝望的时候,谁也不会想到,第一个揭开国内Sora秘密的人,竟然是盛树科技,一家刚刚成立一年多的大型模型公司。

近日,圣树科技联合清华大学宣布推出国内首个基于纯自研U-ViT架构的大视频模型“Vidu”,支持一键生成长达16秒的高清视频内容分辨率高达 p。

从官方短片来看,维杜在多镜头生成、时空一致性、对真实物理世界的模拟、想象力等方面几乎与Sora不相上下。

与国内其他“Sora式”作品相比,《维杜》最明显的特点之一就是画面时长足够长。

十秒一直是“中国Sora”的生死线。

达到或超过十秒,意味着需要深入研究训练材料的积累以及如何解决算法记忆丢失的问题。

这是Vidu发布的另一个官方视频。

从视频中可以看到,白色老式SUV在山坡土路上行驶时,滚动的轮胎会扬起灰尘,轨迹自然连贯;周围的树林,也在阳光的照射下,遵循真实世界的投影规则,留下斑驳的光影。

相比之下,在保证视频长度的前提下,国内大多数“Sora式”人都很难保持人物和场景的连贯性,同时也很难真正遵循身体规律。

世界。

比如吃汉堡会留下咬痕,汽车也会留下咬痕。

行驶在上面会留下废气和灰尘的痕迹。

据业内人士介绍,目前市面上的一些之前的“Sora式”模型实际上是通过插帧来实现长路径的,即在视频的每两帧中添加一帧或多帧来改善视频。

长度。

该方法需要逐帧处理视频并插入附加帧以提高视频长度和质量。

整体画面会显得僵硬、缓慢。

然而,生物技术的工作原理显然不同。

基于单一模型,底层算法完全是端到端生成的。

直观上我们就能看到“一击到底”的流畅感。

视频从头到尾连续生成,没有任何帧插入的痕迹。

此外,还有一些长工具视频采取了“换汤不换药”的做法。

底层集成了很多其他的模型工作,比如先基于Stable Diffusion和Midjourney生成单图,然后生成4s短视频,然后拼接。

也就是说,如果你想要十秒以上的视频,就把多个4s短视频放在一起就可以了。

不仅画面整体流畅度会大幅下降,而且底层也无法实现长视频生成能力的突破。

除了生成时间上的质的突破外,从官宣视频中我们还可以看到,Vidu还实现了画面连续流畅,细节丰富、逻辑连贯。

虽然都是动态图像,但几乎不存在模型磨损、重影、不符合现实规律的动作等问题。

为了简单对比,下面是某热门视频模型团队的视频生成效果截图。

虽然视频整体长度只有四秒,但只要一个准备跳跃的动作指令,就足以让画面中的小猫变成六条腿。

或者是三尾的“幽灵”。

如此鲜明的对比,不禁让人好奇:为何ChatGPT发布后,市场上立即出现了一批“达到GPT 3.5、逼近GPT4.0”的大型号产品。

也是为了追赶,为什么类似Sora的产品就这么难呢?答案是,ChatGPT 发布后不久,Meta LLama2 就开源了。

开源解决了国内ChatGPT技术重现的迫切需求。

不过Sora并没有开源,技术细节也没有透露。

这就导致了实现“国产Sora”的唯一途径就是自研。

根据OpenAI披露的技术报告,Sora背后的核心技术架构源自一篇名为《Scalable Diffusion Models with Transformers》的论文。

论文提出了一种融合 Diffusion(扩散模型)和 Transformer 的架构——DiT,后来被Sora采用。

无独有偶,在 DiT 召开前两个多月,清华团队就提出使用 Transformer 来替代基于 CNN 的 U-Net 网络架构 U-ViT。

从架构角度来看,两者没有区别。

这个过程中甚至还有一个小插曲。

由于发布较早,当年计算机视觉顶级会议CVPR收录了清华大学的U-ViT论文,但以“缺乏创新”为由拒绝了Sora使用的DiT论文。

圣数科技创始团队源自清华大学论文团队。

该公司CTO包凡是该论文的第一作者。

此次发布的Vidu模型底层采用U-ViT架构。

也就是说,盛树科技并不是追逐Sora的一员,但很早就、甚至更早地就已经站在了同一起跑线上。

由此可见,盛树科技成立时间虽短,但历史悠久。

神霸发现,在人才方面,其团队核心成员来自清华大学人工智能研究院,是国内最早开展深度生成研究的团队。

技术方面,团队多项研究成果已被OpenAI、Apple、Stability AI等应用于DALL·E 2、Stable Diffusion等模型,是目前国内发表论文数量最多的团队生成场。

从背景来看,盛树科技得到了蚂蚁集团、启明创投、BV百度创投、字节金秋基金等多家知名机构的认可,并已完成数亿元融资。

而为什么圣树能够做到这一切呢? 02 为什么选择生物技术?或许最重要的答案是盛数科技很早就走上了正确的技术路线。

与市面上大多数视频生成算法采用基于U-Net卷积架构的传统扩散模型不同,圣数科技此次发布的Vidu和Sora采用的是融合架构(即上文提到的U-ViT和DiT)。

所谓融合架构可以理解为Diffusion(扩散模型)和Transformer的融合。

Transformer 架构因其在大型语言模型中的使用而闻名。

这种架构的优势在于规模特征。

参数数量越多,效果越好。

扩散通常用于传统的视觉任务(图像和视频生成)。

该融合架构是将Diffusion Model中常用的U-Net卷积网络替换为Transformer,将Transformer的可扩展性与Diffusion模型在处理视觉数据方面的天然优势融为一体,能够在视觉任务中表现出卓越的性能。

突现能力。

2019年9月,团队提交了U-ViT论文,在全球首次提出了将扩散模型与Transformer相结合的架构思想。

两个多月后推出的DiT架构也采用了这个思想,后来也被Sora采用。

与仅在 ImageNet 上进行实验的 DiT 相比,U-ViT 还对小数据集(CIFAR10、CelebA)、ImageNet 以及图文数据集 MSCOCO 进行了实验。

而且,与传统的Transformer相比,U-ViT提出了“长连接”技术,大大提高了训练收敛速度。

此后,球队进一步深入。

2020年3月,团队在基于U-ViT架构的大规模图文数据集LAION-5B上训练了近10亿参数模型UniDiffuser并开源。

UniDiffuser 支持图形和文本模式之间的任意生成和转换。

UniDiffuser的实现具有重要的价值——它首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于跑遍了大规模训练任务中融合架构的所有流程训练任务。

值得一提的是,无论是图形还是文本模型,UniDiffuser 都比最近改用 DiT 架构的 Stable Diffusion 3 领先一年。

不过,虽然都选择了一体化架构,但在推进后续产品路径上,基于资源考虑,Sora团队选择了“每天几乎不睡觉,高强度工作一年”全部在长视频,而盛数科技则选择了从 2D 图像开始,进一步扩展到 3D 和视频。

没有正确或错误的路线。

一个基本常识是,国内初创公司的技术路线能和OpenAI一样,说明眼光足够长远;但指称OpenAI进行商业化却是自寻死路——Sora背后是OpenAI的技术实力,而微软近乎无限的算力支撑着没有资本学习的普通企业。

因此,回顾一整年,Biotech的主要资源都放在了图像和3D上。

今年1月,圣数科技正式推出4秒短视频一代。

2月份Sora发布后,公司正式攻克该问题,很快在3月份突破了8秒视频生成,并在4月份实现了16秒长度突破。

,并在发电质量和发电时长等方面均取得了突破。

仅仅用了两个月的时间,就完成了从4秒到16秒的训练任务,令人惊叹。

这背后的原因不仅在于技术架构层面的“前瞻性”,还在于从图像到3D再到视频的一步步进步,让团队积累了高效的工程经验。

视频本质上是图像在时间序列上的放大,可以看作是连续的多帧图像,因此我们从图像入手,进行基础设施工程工作,如数据收集、清洗、标注、模型的高效训练等。

经验可以重复利用。

Sora就是这么做的:它利用DALL·E 3的重标注技术为视觉训练数据生成详细的描述,让模型能够更准确地按照用户的文本指令生成视频。

据悉,《Vidu》还复用了圣数科技在图文任务方面的大量经验。

通过为早期图像等任务做准备,圣数科技利用视频数据压缩技术来降低输入数据的序列维度。

同时,采用自主研发的分布式训练框架,不仅保证了计算精度,还将通信效率提升一倍,内存开销降低80%,训练速度累计提升40倍。

路要一步一步走,饭要一口一口吃。

在这场争夺“国产Sora”的商业博弈中,找到合适的技术、找到合适的方向是第一步;而发展“本土”特色也是生存的必要条件,两者缺一不可。

*头图来源:视频号生生shengshu本文为极客公园原创文章。