随着技术的发展,研究人员不断寻找使用人工智能和机器学习能力的新方法。本周早些时候,谷歌科学家宣布创建Transframer,这是一种从单个图像输入生成短视频的新框架。这项新技术有朝一日可以增强传统的渲染解决方案,并使开发人员能够创建基于机器学习功能的虚拟环境。这个新框架的名称(在某些方面也是概念)是对另一个基于人工智能的模型Transformer的致敬。Transformer最初于2017年推出,是一种新颖的神经网络架构,能够通过建模和比较句子中的其他单词来生成文本。该模型已被纳入标准深度学习框架,如TensorFlow和PyTorch。据悉,Transframer使用具有相似属性的背景图片,结合查询标注,打造短视频。尽管未在原始图像输入中提供任何几何数据,但生成的视频会围绕目标图像移动并显示准确的视角。这项新技术使用谷歌的DeepMind人工智能平台进行演示,分析单张摄影背景图像以获得关键图像数据并生成附加图像。在此分析过程中,系统确定图片的框架,进而帮助系统预测图片的周围环境。然后使用上下文图像进一步预测图片从不同角度看起来如何。预测基于上下文帧中的数据、注释和任何其他信息对附加图像帧的概率进行建模。该框架通过提供基于非常有限的数据集生成相当准确的视频的能力,标志着视频技术的巨大进步。Transframer任务还在其他与视频相关的任务和基准测试中显示出可喜的结果,例如语义分割、图像分类和光流预测。这可能会对游戏开发等基于视频的行业产生潜在的巨大影响。当前的游戏开发环境依赖于核心渲染技术,例如着色、纹理贴图、景深和光线追踪。像Transframer这样的技术有可能通过使用人工智能和机器学习来构建他们的环境,为开发人员提供一条全新的开发路径,同时减少创建它们所需的时间、资源和精力。
