当前位置: 首页 > 科技观察

亚马逊发布网络视频分类新框架:1-100数据量,准确率超越最优模型

时间:2023-03-15 08:30:14 科技观察

近日,亚马逊、人工智能初创公司商汤科技和香港中文大学研究人员联合开发了一个使用网络数据的新框架——OmniSource,开创了视频识别领域的新纪元。记录。通过解决图像、短视频和未剪切的长视频等数据格式之间的不兼容问题,并采用数据平衡等方法,OmniSource能够比最先进的模型更准确地对视频进行分类,但它使用数据减少100倍。OmniSource是如何工作的研究人员指出,收集训练视频分类算法所需的数据通常既昂贵又耗时,因为视频通常包含一个或多个主题的多个镜头,因此必须完整观看才能进行分类,然后再进行人工分类。它被切成碎片并仔细注释。OmniSource和OmniSource的架构图以集成的方式利用来自各种来源(搜索引擎、社交媒体)的各种形式的Web数据,例如:图像、剪辑视频和未剪辑视频。AI系统然后过滤掉低质量的数据样本,并标记那些通过其集成的数据(平均70%到80%),对每个样本进行转换,使其适合目标任务,同时提高分类模型的鲁棒性训练。给定一个识别任务,OmniSource为所有分类法中的每个类名获取关键字,并使用自动重复数据删除从上述来源中抓取Web数据。而对于静止图像,这些图像是预先准备好在联合训练期间使用的,这使得它们通过使用移动相机生成“假”视频。在联合训练阶段,一旦数据经过过滤并转换为与目标数据集相同的格式,OmniSource会对Web和目标语料库进行权衡,然后采用跨数据集混合进行训练。更少的数据,更高的准确性在联合训练阶段,研究人员报告说,当使用OmniSource从头开始??训练视频识别模型时,尽管微调不佳,但交叉数据混合仍取得了良好的效果。为了进行测试,该团队使用了三个目标数据集:Kinematics-400,其中包含400个类别,每个类别包含400个10分钟的视频;YouTube-car,包含数千个视频,展示196种不同类型的汽车;UCF101,一个包含100个片段和101个类别的视频识别数据集;Web数据集分布。(a)-(c)显示过滤前后的三个网络数据集,每个类别数据的分布可视化。(d)给出了GG-K400过滤图像(青色框)和剩余图像(蓝色框)的样本。虽然成功过滤掉了很多不合适的数据,但是这使得各个类别的数据分布更加不均匀。关于网站资源,研究人员从GoogleImageSearch收集了200万张图片,从Instagram收集了150万张图片和500,000个视频,从YouTube收集了超过17,000个视频。结合目标数据集,所有这些都被输入到一些视频分类模型中。据报道,未经训练只能从互联网上抓取350万张图片和80万分钟的视频,不到之前工作的2%。而在Kinetics-400数据集上,经过训练的模型的准确率至少提高了3.0%,准确率高达83.6%。同时,在此框架下从头开始训练的最佳模型在Kinetics-400数据集上达到了80.4%的准确率。关于可扩展视频识别技术的OmniSource论文的作者表示,该框架可以通过更简单(更轻便)的主干设计和更小的输入量实现与最先进技术相当甚至更好的性能。表现。OmniSource利用特定于任务的数据集并且数据效率更高,与以前的方法相比大大减少了所需的数据量。此外,该框架可以推广到各种视频任务,例如:视频识别和细粒度分类等。图片来源:Reuters/ThomasPeter未来,OmniSource还可能用于私人和公共场所的安全摄像头.或者,它可以为Facebook等社交网站提供视频审核算法所需的设计信息和技术。原文地址:https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/OmniSource论文地址:https://arxiv.org/pdf/2003.13042.pdf