当前位置: 首页 > 科技观察

聚焦解析:视频用AI与图像用AI的区别

时间:2023-03-21 16:49:30 科技观察

焦点分析:AIforvideo和AIforimage的区别。有一种误解,认为视频AI只是从视频片段中提取特定帧,然后在每个视频帧上运行计算机视觉算法。虽然这种方法确实有效,但它并没有真正带来分析见解。在今天的文章中,我们将通过几个示例来了解这种处理单个视频帧的方法的缺点。但是,限于篇幅,我不会详细讨论克服这些缺点所需的其他算法。感兴趣的朋友可以参考VideoIndexer,它提供了多种特定的视频算法可以实现这样的目标。视频中出现的人物让我们来看看下面[视频]的前25秒请注意,在这25秒中Doug一直出现在屏幕中。如果您要绘制Doug在视频中出现的时间轴,它应该如下图所示。请注意,在此过程中,Doug并未一直面对镜头。在视频的第7秒,他盯着艾米丽看——第23秒也是如此。如果您在视频中相应的时间段内运行面部检测,则不会检测到Doug的面部(见下面的屏幕截图)。也就是说,如果只是对每个视频帧进行人脸检测,是无法画出如上所示的时间线的。要获得这样的时间线,我们必须能够跨视频片段跟踪面孔,同时考虑面孔出现时的侧视图。VideoIndexer能够跟踪面孔,这意味着您将能够看到之前节目的完整时间线。使用光学字符识别提取主题/关键词请看下面两幅图。这两帧是主讲人在台上演讲的一段视频,后面的背景墙上“Microsoft”字样时隐时现。作为人类观众,我们当然可以很容易地推断出它说的是“微软”。但是如果你对这两张图片运行OCR,输出将只有“Microsc”和“crosoft”。如果您正在处理视频剪辑中的完整视频帧序列,您会得到很多不完整的词汇。为了成功地从一个镜头中提取出正确且完整的词汇,您需要对这部分词汇应用算法。VideoIndexer启用此功能并从视频中获得更好的分析见解。人脸识别人脸识别系统由一个人脸数据库组成,该数据库包含一组指向不同人类对象的训练图像。它还提供了一个查询功能,可以从查询图像中提取面部特征并将它们与面部数据库进行匹配。查询函数的输出包含一个可能的匹配列表和一个置信度值。查询函数的输出质量将取决于人脸数据库和查询图像的实际质量。在视频处理场景中,会包含多个视频帧,人物会出现不同的头部姿势和光照条件。当然,我们可以在每个字符出现时,逐帧查询人脸识别系统,但这种做法可能会导致不同的人脸匹配结论和置信度值,帧间差异巨大。换句话说,我们需要使用额外的逻辑层来确定人脸匹配结果。作为一种优化方法,我们可以选择合适的帧子集进行有针对性的人脸识别系统查询,从而减少系统的实际查询次数。在处理视频时,我们还可以通过使用来自多个视频帧的人物训练图像整理趋势来构建和增强面部数据库。此外,您还可以构建逻辑来跨帧跟踪字符,并使用启发式方法评估其中的变化。VideoIndexer也可以实现这个功能,这意味着用户将能够从当前视频中构建出更高质量的人脸库结果。原标题:HowisHowisDifferentAIforvideoandAIforimages更多AI内容,请关注公众号:AI推手【翻译、合作站转载请注明原译者及出处为.com】