当前位置：首页 > 科技赋能

阿里云推出全新大规模视频生成模型，2分钟即可生成高清电影级视频

时间：2024-05-19 16:15:07 科技赋能

近日，阿里云推出全新大规模视频生成模型I2VGen-XL，并开放体验在摩达社区。

用户上传一张图片需要2分钟。

通过左右转动可以生成高分辨率视频。

该模型的开发者负责人表示，未来将进一步实现2K超清效果，并可应用于短视频内容制作、电影制作等场景。

I2VGen-XL在Moda社区的开放体验不同于业内流行的AI绘画创作大模型。

大模型视频生成的技术门槛较高。

需要克服文本与视频内容匹配、视频画面质量、画面连续性等诸多技术挑战。

此前，微软、微软等科技公司已相继推出一系列关于可控视频生成的研究成果。

例如，用户可以通过定义空间布局、运动模式等条件来生成视频，但画面清晰度很难满足现实场景应用的需求。

针对这一问题，阿里云进一步提出了创新思路。

I2VGen-XL 模型的设计分两个阶段。

首先保证低分辨率条件下生成的结果与给定图像语义的匹配，然后利用视频扩散模型（VLDM）提高视频分辨率，同时提高时空一致性，保证最终结果的清晰度和连贯性视频内容，最终实现最高分辨率的突破，在显示画面细节方面大幅领先现有机型。

据介绍，该模型的训练还使用了各种风格的视频数据，因此可以生成科技感、电影色彩、卡通风格、小品等丰富类型的视频。

I2VGen-XL流程图目前，I2VGen-XL的模型和代码已经开源。

国内外社交媒体显示，该模式吸引了国内外用户和开发者的丰富经验和二次开发，涌现出大量创意AI视频生成内容。

比如城堡上展翅的恐龙、宇航员在宇宙飞船中行走的科幻电影场景等等……知名AI社交媒体分析师Ahsen Khaliq在推特上发布了多个模型生成的视频效果，称模型越来越清晰，在程度、纹理、语义和时间连续性上都有优势。

国内外网友和开发者广泛关注和体验视觉生成领域。

阿里云此前已推出大型AI绘画创作模型统一万象（基础模型Composer）和可控视频生成模型VideoComposer。

该团队已在该领域发表论文60余篇。

CCF-A论文，并获得国际顶级视觉比赛冠军10余次。

阿里云推出全新大规模视频生成模型，2分钟即可生成高清电影级视频相关文章