当前位置: 首页 > 科技赋能

腾讯微视凭借BLENDer模型获得VCR大赛第一名

时间:2024-05-20 02:16:36 科技赋能

视觉常识推理VCR(Visual Commonsense Reasoning)是人工智能领域的前沿热点问题。

我国也将从处理单一类型的数据转向跨媒体识别。

知识、学习、推理的“跨媒体智能”被列入5大智能方向。

近日,腾讯微视视频理解团队在多模态理解领域最权威的排名之一VCR任务中夺得冠军。

团队提出的BLENDer(BimodaL ENcoDer)模型超越了百度、谷歌、微软、Facebook等研究机构的模型效果,在单模型和多模型三项指标中成为第一。

值得注意的是,BLENDer 仅依赖于单个模型的效果。

它超越了之前榜单上多模型的最佳成绩,赋予机器更强大的理解和认知能力,并深度应用于短视频领域。

追赶百度、谷歌等,腾讯微视AI团队位列VCR榜首。

视觉常识推理(VCR)任务最早由华盛顿大学的研究人员于2016年提出,该任务旨在结合图像和自然语言理解来验证多模态模型的高阶认知和常识推理能力,赋予机器“看图说话”的能力。

例如,录像机可以通过图片中人物的行为进一步推断动机和情绪等信息。

VCR榜单是多模态理解领域最权威的排名之一。

也是当前图像理解和多模态领域最深、最高水平的任务之一。

引起了国内外微软、谷歌、Facebook、百度、UCLA等的关注。

公司和研究机构都参与其中。

此次夺得榜首的单模型BLENDer来自腾讯微视视频理解团队,超越此前排名靠前的百度团队的多模态预训练模型ERNIE-ViL-large,成为VCR新的领军者列表。

据相关负责人介绍,BLENDer模型已应用于腾讯微视产品,赋予平台更强大的认知能力,使得包括文本、音频、视频等媒体信息在内的内容能够更好地实现分类识别,并更准确地理解和挖掘这些海量的跨媒体信息。

例如,当腾讯微视用户创作视频时,平台可以识别内容并精准推荐合适的话题。

还可以根据内容属性快速推荐给感兴趣的用户,增强创作内容的曝光度。

腾讯微视视频理解团队提出的单模型BLENDer基于前沿视觉语言Bert模型。

它将整个学习过程分为三个阶段,最终将任务的三个问答准确率提高到81.6、86.4和70.8的水平。

BLENDer仅在单一模型上的表现就已经超过了此前各行业公司和研究机构的多模型融合效果。

在BLENDer模型中,第一阶段以NLP中的Bert模型为起点,结合从海量数据中提取的数百万张图片和相应的描述文本作为BLENDer的输入进行多模态训练;第二阶段,利用视觉常识在推理数据集上学习电影中的场景和情节,使模型能够获得对新数据更好的迁移能力;第三阶段引入最终问答任务,让BLENDer利用现有知识和常识对现有问题进行性格分析。

挖掘并关联人物与人物场景之间的关系进行推理,得到最终答案。

腾讯微视赋能人工智能技术短视频腾讯微视一直非常注重技术研发。

腾讯微视视频理解团队长期深耕多模态语义理解领域,持续进行技术突破和落地,整合相关技术应用于海量图像、视频、文本等的认知推理。

跨媒体信息。

同时,腾讯微视团队立足业务不断探索前沿领域,将人工智能技术应用到短视频生态系统中,贯穿于内容创作、内容审核、内容分发等各个环节。

在内容创作过程中,腾讯微视将3D人脸、人体、GAN等AI技术与AR技术相结合,辅助用户进行内容创作,让创作过程更加便捷、有趣、普惠;在视频审核过程中,腾讯微视利用图像检测、分类、多模态理解等AI技术精准识别视频内容,提高审核效率,让用户生成的内容尽快到达消费者手中。

目前,腾讯微视的内容处理效率已达到行业领先水平;而在视频分发环节,腾讯微视利用AI技术从非结构化图像、音频、文本数据中提取标签、特征等结构化信息输出,支持分发和用户精准匹配。

未来,人工智能将拥有更加多元、深入的沟通和学习能力,技术创新和进步将进一步推动AI技术在商业智能交互场景的落地。