近日,阿里云推出全新大规模视频生成模型I2VGen-XL,并开放体验在摩达社区。
用户上传一张图片需要2分钟。
通过左右转动可以生成高分辨率视频。
该模型的开发者负责人表示,未来将进一步实现2K超清效果,并可应用于短视频内容制作、电影制作等场景。
I2VGen-XL在Moda社区的开放体验不同于业内流行的AI绘画创作大模型。
大模型视频生成的技术门槛较高。
需要克服文本与视频内容匹配、视频画面质量、画面连续性等诸多技术挑战。
此前,微软、微软等科技公司已相继推出一系列关于可控视频生成的研究成果。
例如,用户可以通过定义空间布局、运动模式等条件来生成视频,但画面清晰度很难满足现实场景应用的需求。
针对这一问题,阿里云进一步提出了创新思路。
I2VGen-XL 模型的设计分两个阶段。
首先保证低分辨率条件下生成的结果与给定图像语义的匹配,然后利用视频扩散模型(VLDM)提高视频分辨率,同时提高时空一致性,保证最终结果的清晰度和连贯性视频内容,最终实现最高分辨率的突破,在显示画面细节方面大幅领先现有机型。
据介绍,该模型的训练还使用了各种风格的视频数据,因此可以生成科技感、电影色彩、卡通风格、小品等丰富类型的视频。
I2VGen-XL流程图 目前,I2VGen-XL的模型和代码已经开源。
国内外社交媒体显示,该模式吸引了国内外用户和开发者的丰富经验和二次开发,涌现出大量创意AI视频生成内容。
比如城堡上展翅的恐龙、宇航员在宇宙飞船中行走的科幻电影场景等等……知名AI社交媒体分析师Ahsen Khaliq在推特上发布了多个模型生成的视频效果,称模型越来越清晰,在程度、纹理、语义和时间连续性上都有优势。
国内外网友和开发者广泛关注和体验视觉生成领域。
阿里云此前已推出大型AI绘画创作模型统一万象(基础模型Composer)和可控视频生成模型VideoComposer。
该团队已在该领域发表论文60余篇。
CCF-A论文,并获得国际顶级视觉比赛冠军10余次。