说到动画就不得不提迪士尼这个从1923年就建立起来的商业帝国,以动画起家的迪士尼引领了全球动画电影的发展至今。每部动画电影的背后,都凝聚着数百人的心血与汗水。自第一部电脑3D动画《玩具总动员》问世以来,迪士尼开启了数字动画创作之旅。随着CGI和AI技术的发展,迪士尼动画电影的制作和存档发生了巨大的变化。《疯狂动物城》,风靡全球,历时五年完成。目前,迪士尼还吸纳了大量的计算机科学家。他们正在用最前沿的技术改变内容创作的方式,减轻幕后电影人的负担。百年电影巨头,如何经营数字内容据了解,在华特迪士尼动画工作室,有来自25个不同国家的800多名员工,包括艺术家、导演、编剧、制片人和技术团队。制作一部电影,需要经历从灵感产生,到故事大纲撰写,再到剧本起草、美术设计、角色设计、配音、动画效果、特效制作、剪辑、后期制作等诸多复杂的过程。截至2021年3月,仅专注于动画电影的华特迪士尼动画工作室就制作并发行了59部动画长片,这些电影中的动画形象多达数百个。历史动画角色的相关素材数据将在续集、彩蛋和参考设计中频繁使用。当动画师在制作续集或想参考某个角色时,他们需要在海量内容库中搜索特定的角色和场景。或对象。出于这个原因,他们经常需要花几个小时观看视频,纯粹用肉眼选择他们需要的片段。为了解决这个问题,迪士尼从2016年开始启动了一个名为“ContentGenome”的AI项目,旨在创建迪士尼数字内容文件,帮助动画师快速准确地识别动画中的面孔(无论是角色还是其他东西)。训练动画专用人脸识别算法将内容库数字化,第一步是检测并标记过往作品中的内容,方便创作者和用户检索。人脸识别技术已经比较成熟,但是动画中的人脸识别能不能用同样的方法呢?在与ContentGenome技术团队进行试验后,发现它只在某些情况下有效。他们选取了《小狮王守护队》和《小狮王守护队》两部动画电影,手动标注了一些样本,用方块标记了电影数百帧中的人脸。通过这个人工标注的数据集,团队验证了基于HOG+SVMpipeline的人脸识别技术在动画人脸(尤其是类人脸和动物脸)上表现不佳。手动标注动画角色的面部团队分析证实,HOG+SVM等方法对颜色、亮度或纹理变化具有鲁棒性,但所使用的模型只能匹配具有人类尺度(即两只眼睛、一个鼻子和一张嘴)的动画角色).此外,由于动画内容的背景通常具有平坦区域且细节很少,因此Faster-RCNN模型会将从简单背景中突出的所有内容错误识别为动画人脸。在《汽车总动员》中,两位“赛车”主角较为抽象的面孔无法通过传统的人脸识别技术检测和识别。因此,该团队认为他们需要一种能够学习更抽象的人脸概念的技术。团队选择使用PyTorch训练模型。据该团队称,使用PyTorch,他们可以访问最先进的预训练模型来满足他们的训练需求,并使归档过程更加高效。在训练过程中,团队发现他们的数据集中有足够的正样本,但没有足够的负样本来训练模型。他们决定用不包含动画面孔但具有动画特征的附加图像来扩充初始数据集。从技术上讲,为了做到这一点,他们扩展了Torchvision的Faster-RCNN实现,以允许在训练期间加载负样本而无需注释。这也是团队在Torchvision核心开发者的指导下,为Torchvision0.6做的一个新特性。在数据集中添加反例可以大大减少推理时的误报,从而获得出色的结果。使用PyTorch处理视频,效率提升10倍在实现动画图像的面部识别后,团队的下一个目标是加快视频分析过程,应用PyTorch可以有效并行化和加速其他任务。该团队解释说,读取和解码视频也很耗时,因此该团队使用了自定义PyTorchIterableDataset,结合PyTorch的DataLoader,允许使用并行CPU读取视频的不同部分。提取视频的I帧被分成不同的chunk(块),每个CPUworker读取不同的chunk。这种阅读视频的方式已经非常快了,但团队也尝试了一次阅读就可以完成所有内容。计算。因此,他们在PyTorch中执行了大部分管道,同时考虑了GPU执行。每个帧只发送一次到GPU,然后所有算法都应用于每个批次,将CPU和GPU之间的通信减少到最低限度。该团队还使用PyTorch实现了镜头检测器等更传统的算法,该算法不使用神经网络,主要执行颜色空间变换、直方图和奇异值分解(SVD)等操作。PyTorch使团队能够以最小的成本将计算卸载到GPU,并轻松回收多个算法之间共享的中间结果。通过使用PyTorch,团队将CPU部分卸载到GPU,并使用DataLoader加速视频读取,充分利用硬件,最终将处理时间减少10倍。团队的开发人员得出结论,PyTorch的核心组件,如IterableDataset、DataLoader和Torchvision,让团队在生产环境中提高数据加载和算法效率,从推理到模型训练资源再到完整的流水线优化工具集,团队有越来越多的选择使用PyTorch。
