当前位置: 首页 > 科技观察

短视频美团内容理解与生成技术的创新实践

时间:2023-03-20 18:40:53 科技观察

作者|马斌针对视频数据,如何通过计算机视觉技术利用相关数据,为用户和商家提供更好的服务,是一个重要的研发课题。本文将与大家分享短视频内容理解与生成技术在美团业务场景中的实现。一、背景美团围绕丰富的本地生活服务电商场景积累了丰富的视频数据。以上为美团业务场景下的菜品点评示例。可见,视频可以提供比文字和图像更丰富的信息。创意菜品《冰与火之歌》中火焰、巧克力、冰淇淋的动态互动,以短视频的形式生动呈现,进一步为商家和用户提供多元化的内容展示和消费引导。随着视频行业的发展,我们之所以能够快速进入视频爆炸时代,是因为许多技术领域的重大进步,包括拍摄和采集设备的小型化、视频编解码技术的进步、视频质量的提高等。网络通信技术。近年来,由于视觉AI算法的不断成熟,在视频场景中得到了广泛的应用。本文将主要探讨如何通过视觉AI技术的加持,提升视频内容创作、制作和分发的效率。美团AI——场景驱动技术说到美团,大家首先会想到外卖的场景。不过,除了外卖,美团还有其他200余项业务,涵盖“吃”、“住”、“行”、“玩”等生活服务场景,以及零售电商如“美团优选”和“团号货”,丰富的业务场景带来多样化的数据和多样化的落地应用,进而带动底层技术的创新迭代,同时底层技术的沉淀也能赋能数字化和数字化。各业务智能化升级,形成相互促进的良性循环。各个场景站的展示形式,短视频技术在美团C端也有丰富的应用。视频笔记,用户评论,搜索结果页等等。在这些视频内容呈现之前给用户,首先要经过很多算法模型的理解和处理。丰富的内容和展示形式(B端)和商家端(B端)的视频内容展示形式,包括景点介绍——让消费者体验更加立体的线上体验;将静态图片合成视频,全面展示酒店信息,帮助用户快速了解酒店全貌(自动生成技术将在后文2.2.2节介绍);商家品牌广告——算法通过智能编辑等功能减少商家数量。编辑和创建视频的门槛;商家视频相册——商家可以自行上传各种视频内容,算法会对视频进行标注,帮助商家管理视频;商品视频/动态图片——上面提到的美团的业务范围也包括零售电商,这部分对于产品信息展示非常有利。例如,螃蟹、虾等生鲜商品的动态信息很难通过静态图片呈现,而动态图片可以为用户提供更多的商品参考信息。短视频技术应用场景从应用场景来看,短视频的在线应用主要包括:内容运营管理、内容搜索与推荐、广告营销、创意制作。底层支撑技术主要分为两类:内容理解和内容生产。内容理解主要回答视频出现在什么时间、出现什么内容的问题。内容制作通常基于对视频素材的内容理解和处理。典型的技术包括视频智能封面和智能编辑。下面介绍一下这两类技术在美团场景的实践。2.短视频内容理解与生成技术实践2.1短视频内容理解2.1.1视频标注视频内容理解的主要目标是归纳出视频中的重要概念,打开视频内容的“黑匣子”,以及让机器知道What'sinthebox为下游应用程序提供语义信息,以更好地管理和分发视频。根据结果??的形式,内容理解可分为显性和隐性两种类型。其中,显式是指利用视频分类相关技术,给视频打上人类可以理解的文字标签。隐式主要是指以向量形式表达的嵌入特征,在推荐、搜索等场景中与模型结合,直接对最终任务进行建模。可以大致理解为前者主要针对人,后者主要针对机器学习算法。显式的视频内容标签在很多场景都是必要的,例如:在内容运营场景中,运营商需要根据标签进行供需分析、高价值内容圈层选择等。上图展示了内容理解作为视频标签的一般流程,其中每个标签都是一个人类可以理解的关键字。通常,为了更好的维护和使用,会将大量的标签按照它们之间的逻辑关系组织成一个标签系统。2.1.2视频标签的不同维度和粒度那么视频标签的应用场景有哪些呢?背后有哪些技术难点?美团场景中比较有代表性的例子——美食店探索视频,内容非常丰富。标签系统的设置尤为关键。什么样的标签更适合描述视频内容?首先,标签的定义需要从产品、运营、算法的角度来最终确定。本例中有三层标签,上层比较抽象。其中,主题标签对整体视频内容的概括能力很强,比如美食探索的主题;中间层将进一步拆分,描述与拍摄场景相关的内容,如店内、店外的环境;底层被分割成细粒度的实体,了解宫保鸡丁或番茄炒鸡蛋的颗粒度。不同层的标签有不同的应用,顶层视频话题标签可以应用于高价值内容的筛选和运营。它的主要困难在于它的高度抽象。“美食探店”这个词概括性很强,人们看了视频就明白了。模型的学习能力提出了很大的挑战。2.1.3基本表示学习解决方案主要集中在两个方面:一方面是与标签无关的通用基本表示的改进,另一方面是针对特定标签的分类性能的改进。初始模型需要有比较好的基础表示能力。这部分不涉及最终的下游任务(例如:识别是否是美食探索视频),而是模型权重的预训练。一个好的基础表示可以事半功倍地提升下游任务的性能。由于视频标签的标注成本非常高,因此在技术方案层面需要考虑的是:如何在使用尽可能少的业务全监督标注数据的同时,学习到更好的基本特征。首先,在任务无关的基础模型表示层面,我们在美团视频数据上使用了自监督预训练特征,这比在公共数据集上的预训练模型更符合业务数据分布。其次,在语义信息嵌入层面(如上图所示),可以利用多种标记数据源。值得一提的是,美团在业务场景中有比较有特色的弱标签数据。例如,当用户在餐厅发表评论时,图片和视频顶部的抽象标签是食物,评论文本中很可能会提到在店里吃饭。菜名是可挖掘的优质监管信息,可以通过视觉文本相关性测量等技术手段进行清洗。这是一个自动挖掘的带有“烧烤”标签的视频示例。利用这部分数据对视频样本进行预训练,可以得到一个初始的TeacherModel,可以在业务场景中对未标注的数据进行伪标签。这里的重点在于,由于预测结果并不完全准确,需要根据分类置信度等信息进行伪标签清洗,然后与TeacherModel一起得到增量数据,以便在业务场景中更好的进行特征表达,StudentModel是通过迭代清洗得到的。作为下游任务的底层表示模型。在实践中,我们发现数据迭代比模型结构的改进更有价值。2.1.4针对特定标签性能提升的模型迭代主要要解决的问题是如何在基本表示模型的基础上对目标类别的样本数据进行高效迭代,以提升标签分类模型的性能。样本的迭代分为离线和在线两部分。以食品店标签为例,首先需要对少量正样本进行离线标注,对基本表示模型进行微调,得到初始分类模型。此时模型的识别准确率通常较低,但即便如此,对样本清洗和迭代还是很有帮助的。试想一下,如果标注者从存量样本池中随机筛选,看了几百上千个视频可能很难找到一个目标类别的样本,而通过初始模型预筛选,每隔几个视频就可以看一遍。筛选出目标样本可以显着提高标记效率。第二步,如何不断迭代更多的在线样本,对于提高标签分类模型的准确率至关重要。对于模型的在线预测结果,我们有两条返回路径。如果在线模型的预测结果非常有把握,或者几个模型有相同的认知,可以自动回流模型预测标签加入模型训练。对于高置信度但错误的噪声标签,可以在模型训练过程中使用一些抗噪声技术,例如:Confidencelearningforautomaticculling。更有价值的是,我们在实践中发现,提升模型性能的ROI要高于手动修正模型不自信的数据。例如,筛选出三种模型预测结果差异较大的样本,交给人工确认。这种主动学习方式可以避免在大量简单样本上浪费标注人力,扩展对模型性能提升更有价值的标注数据。2.1.5视频标签的应用——高价值内容筛选聚合上图为视觉标签在点评推荐业务中的应用案例。在人探店Tab中,运营同学们通过标签筛选出带有“美食探店”标签的视频进行展示。让用户在身临其境的体验中更全面地了解店内信息,同时为商家提供良好的窗口,起到宣传引流的作用。2.1.6视频标签的不同维度和粒度从上图可以看出,不同维度的标签对技术的要求是不同的。对于细粒度实体的理解,需要识别具体的菜品,这与上层粗粒度标签的问题不同。如何应对技术挑战。首先是细粒度的识别任务,需要对视觉特征进行更精细的建模;其次,视频中菜肴的理解比单幅图像中菜肴的识别更具挑战性,需要处理数据的跨域问题。2.1.7菜品图像识别能力向视频领域的迁移抽象出关键问题后,我们分别来处理。首先,在细粒度识别方面,衡量菜品视觉相似度的挑战在于,对于不同食材的特征和位置关系没有统一的定义。同一道菜,不同的厨师可能做出两种完全不同的样子。这就要求模型不仅要关注局部的细粒度特征,还要整合全局信息进行判别。为了解决这个问题,我们提出了一个堆叠的全局-局部注意力网络,它同时捕获形状纹理线索和局部食物成分,可以显着提高菜肴的识别效果。相关结果发表在ACMMM国际会议上(ISIAFood-500:ADatasetforLarge-ScaleFoodRecognitionviaStackedGlobal-LocalAttentionNetwork)。上图(右)是挑战的第二部分。图像和视频帧中的相同对象通常具有不同的外观。例如,图片中的螃蟹经常被煮熟后摆在盘子里,而视频画面中经常出现烹调过程中的新鲜螃蟹。它们在视觉上是不同的。很大。我们主要从数据分布的角度来处理这部分跨域差异。业务场景积累了大量带标注的食物图像,这些样本的预测结果通常在辨别力上较好,但由于数据分布的差异,无法对视频帧中的螃蟹进行有把握的预测。对此,我们希望提高预测结果在视频帧场景中的判别力。一方面,利用最大化核范数的方法来获得更好的预测分布。另一方面,利用知识蒸馏的方法,不断使用强大的模型来指导轻量级网络的预测。结合视频帧数据的半自动标注,在视频场景下可以获得更好的性能。2.1.8细粒度食物图像识别能力基于以上食物场景内容理解的积累,我们在ICCV2021上举办了Large-ScaleFine-GrainedFoodAnalysis竞赛。菜品形象来源于美团的实际业务场景,包括1500种中餐菜品。竞赛数据集持续开放:https://foodai-workshop.meituan.com/foodai2021.html#index,欢迎下载使用,共同提升挑战场景下的识别性能。2.1.9菜品细粒度标注的应用——通过搜封面识别视频中的细粒度菜名有什么应用?在这里给大家分享一个业务场景回顾和搜索的应用——按搜索封面。实现的效果是根据用户输入的搜索关键词,对同一组视频内容显示不同的封面。图中离线部分展示了视频片段的分割优化过程。首先,通过关键帧提取和基本质量过滤,选择适合展示的图像;然后通过菜品的细粒度标签识别,我们可以了解什么菜品出现在什么时间点,作为候选封面材料存储在数据库中。在线用户搜索自己感兴趣的内容时,根据视频的多个候选封面与用户查询词的相关性,为用户展示最合适的封面,提升搜索体验。比如你也搜索“火锅”,左图是默认封面,右图是“点击找封面”的结果。可以看出,左侧的结果中有一些以人物为主体的封面,与用户搜索火锅视频时期望看到的内容不符。直觉上感觉就像一个无关紧要的BadCase。根据搜索到的封面显示结果,搜索到的内容都是火锅图片,体验较好。这也是细粒度标签在美团场景中对视频片段的创新应用。2.1.10挖掘更丰富的视频片段标签以上都是美食视频,美团还有很多其他的业务场景。如何自动挖掘更丰富的视频标签,使标签系统自身能够自动扩展,而不是完全依赖人工定义,是一个重要的课题。我们的工作基于大众点评丰富的用户评论数据。上图中的示例是用户的注释。可以看到内容中不仅有视频,还有几张图片,还有一大段描述。这些模式是相关的并且有一个共同的概念。通过一些统计学习方法,可以利用视觉和文本两种模态之间的交叉验证来挖掘视频片段和标签之间的对应关系。2.1.11视频片段语义标签挖掘结果示例例如,视频片段和标签是通过算法自动挖掘的。左图是标签出现频率,呈现出明显的长尾分布。但值得注意的是,通过这种方式,算法可以发现粒度更细的有意义的标签,例如“围巾画”。这样,我们就可以在最大限度减少人工参与的情况下,发现更多美团场景中重要的标签。2.2短视频内容生成接下来,我们来谈谈如何基于内容理解来生成内容。内容制作是短视频AI应用场景中非常重要的一环。下面的分享更多的是对视频素材的解构和理解。视频内容制作的流程环节(如上图所示),其中内容生成环节主要是将原始视频上传到云端,作为素材,经过算法剪辑处理,潜在价值内容更好玩。比如在广告场景中,通过算法对原始视频中的商业环境和菜品效果进行识别和编辑,提高信息的密度和质量。另外,视频内容制作按照应用形式可以分为三类:图片生成视频,常见的形式是自动生成相册速览视频;视频生成视频片段,典型案例是长视频精彩片段的剪辑,变成更精简的短视频做二次发布;视频像素级编辑,主要涉及精细化的画面特效编辑。下面,我们将描述三种类型的申请表。2.2.1Image-generatedvideo-foodscene第一类食物动画生成是image-generatedvideo。这部分需要做的是对图像素材的理解和处理,让用户可以在不了解技术细节的情况下,端到端的一键生成理想的素材。如上图,商家只需输入制作素材的图片相册,一切交给AI算法:首先,算法会自动剔除不适合制作的劣质图片展示;然后做内容识别和质量分析。内容标识包括内容标签,质量分析包括清晰度和美学信用;由于原图素材尺寸难以直接适配目标展位,需要根据审美评价模型对图片进行智能裁剪;最后叠加Ken-Burns,transition等特效得到渲染结果。商家会得到精心策划的美食视频。2.2.2图片生成视频——酒店场景酒店场景还有一个相册快照视频生成的例子。与动图相比,它需要结合音频和转场效果。同时,视频对于先展示什么内容的要求更高,需要结合业务场景的特点。根据设计者制定的脚本模板,算法自动选择特定类型的图片,填充到模板的相应位置。2.2.3视频生成视频片段第二类是视频生成视频片段。主要是对长视频进行划分,选择几个比较精彩的、符合用户期待的内容进行展示。从算法阶段分为片段生成和片段筛选排序。剪辑生成部分通过时序分割算法得到镜头剪辑和关键帧。片段排序部分比较关键,它决定了视频的优先级。这也是比较难的部分。它有两个维度:一般质量维度,包括清晰度、美感等;语义维度,例如:在美食视频中,成品菜肴的展示、制作过程等通常都是比较精彩的片段。语义维度的理解主要由前面介绍的内容理解模型支撑。2.2.3.1智能封面和精彩片段原始封面算法剪切视频(10s)。我们从视频中生成视频剪辑以实现两个应用场景。首先是智能动态封面。在一般的基本质量的基础上,选择一个清晰度较高、信息动态、无闪烁的视频片段作为视频的封面。与默认剪辑相比,效果更好。2.2.4视频像素级编辑处理——第三类视频特效菜品,视频像素级编辑。例如,这里有一个基于视频对象分割(VOS,VideoObjectSegmentation)技术的菜品创意特效。其背后的关键技术是美团自研的高效语义分割方法。该方法在CVPR2021上发表了论文(RethinkingBiSeNetForReal-timeSemanticSegmentation),有兴趣的同学可以去了解一下。像素级编辑处理最重要的技术之一是语义分割。应用场景中的主要技术挑战是保证分割模型的时效性,以及分辨率和高频细节信息。我们进一步改进了经典的BiSeNet方法,提出了一种基于细节引导的高效语义分割方法。具体方法见网络结构。左边浅蓝色部分是网络的推理框架,沿用了BiSeNetContext分支的设计。Context分支的主干使用我们自研的主干STDCNet。与BiSeNet不同的是,我们对Stage3进行了细节引导训练,如右图浅绿色部分,引导Stage3学习细节特征;浅绿色部分只参与训练,不参与模型推理,不会造成额外的时间消耗。首先,对于分割后的GroundTruth,我们使用不同步长的拉普拉斯卷积得到详细的真值,丰富了图像的边角信息;然后利用细节真值和设计细节Loss来指导Stage3细节特征的浅层特征学习。由于图像细节真实值前后背景分布严重不平衡,我们采用了DICEloss和BCEloss的联合训练方法;为了验证细节引导的有效性,我们做了这个实验。从特征可视化的结果可以看出,通过从多个尺度获得的详细真值来引导网络可以获得最好的结果,模型的性能也通过详细的信息引导得到提升。在效果上,通过对比可以看出,我们的方法在保持分割细节的高频信息方面有很大的优势。3.总结与展望以上分享了美团在视频标注、视频封面剪辑、视频细粒度像素级剪辑等技术领域。通过与业务场景的结合,有望为商户和用户提供更加智能化的信息展示和获取方式。未来,在短视频技术应用方面,美团本地生活服务、零售电商等丰富的业务场景将发挥更大的潜在价值。在视频理解技术方面,多模态自监督训练对于缓解对标注数据的依赖,提高模型在复杂业务场景下的泛化性能非常有价值。我们也在做一些实验和探索。4.本文作者为美团视觉智能部工程师马斌。