本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。在超越人类这件事上,AI又多了一分。就在近日,国际权威机器视觉问答排行榜VQALeaderboard更新了一个数据:AI在“读图理解”任务中的准确率达到了81.26%。第一次超越人类!对于“看图理解”这件事,AI比你的眼睛还毒辣|达摩院》>要知道,我们人类在这个任务中的baseline只有80.83%,而解锁这个成就的是来自达摩院团队的阿里巴巴AliceMind-MMU。这意味着AI在多模态技术上也取得了突破在2015年和2018年视觉识别和文字理解超越人类之后!AI比你厉害这个会看图的AI有多牛?看看下面的例子,当你问AI:“这些玩具是干什么用的?》它会根据小熊穿的衣服回答:婚礼。这是第一次超越人类!》看图明白《这件事,AI比你的眼睛还毒辣|达摩学院》>问AI另一个问题:“男人的足球帽代表哪支球队?”它会根据帽子上的字母“B”来回答:Boston。第一次超越人类!对于“看图理解”这件事,AI比你的眼睛还毒辣|达摩院》>增加挑战难度,再出一个。》图中的玩具人偶IP来自哪部电影?这时,AI会根据图片中的玩具,以及战斗场景等信息进行推理。但最终,它给出了一个准确的答案:星球大战。第一次,超越了人类!AI比你的眼睛更毒辣|《达摩学院》>比如下面的例子,A??I会抓取图片中的详细信息,准确回答提出的问题,首次超越人类!“看图理解”,AI比你的眼睛还毒辣|达摩”>嗯,可以说是一丝不苟。你是怎么做到的?或许以上案例对于人类来说并不是很难。但对于人工智能来说,这并不是一件容易的事。核心难点之一是:需要在单模态准确理解的基础上,融合多模态信息进行联合推理和认知,最终实现跨模态理解。怎么破?阿里达摩院的做法是系统化设计AI视觉文本推理系统,融合大量创新算法。第一次超越人类!AI在“看图知己”这件事上比你的眼睛还狠>具体来说,大致可以分为四个内容:多样化的视觉特征表示:从方方面面描述图片局部和全局的语义信息,利用视觉特征比如Region、Grid、Patch,可以更准确的进行单模态理解;基于海量图形数据和多粒度视觉特征的多模态预训练:为了更好地进行多模态信息融合和语义映射,提出了SemVLP、Grid-VLP、E2E-VLP和Fusion-VLP等预训练模型。自适应跨模态语义融合与对齐技术:在多模态预训练模型中加入LearningtoAttend机制,实现跨模态信息的高效深度融合。专家混合(MOE)技术:知识驱动的多技能AI集成。第一次超越人类!「看图看懂」比你的眼睛还毒辣|《达摩院》>据了解,该模型所涉及的技术也得到了专业认可,例如多模态预训练模型E2E-VLP已被顶级国际会议ACL2021接受,首次超越人类!”看图看懂》,AI比你的眼睛还毒辣|达摩院》>关于VQAVQA,可以说是AI领域最难的挑战之一。对于单个AI模型,VQA试卷的难度可以称为“在测试中,AI需要根据给定的图片和自然语言问题生成正确的自然语言答案。这意味着单个AI模型需要集成复杂的计算机视觉和自然语言技术:首先扫描所有图像信息,结合文本问题的理解,利用多模态技术学习图文相关性,准确定位相关图像信息,最后根据常识和推理回答问题.首次超越人类!“看图看懂”,AI比你眼光更毒辣|达摩院》>但解决VQA的挑战对通用人工智能的发展意义重大。因此,全球顶级计算机视觉会议CVPR自2015年起连续六年举办VQA挑战赛,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等在内的众多顶级机构参与。同时,还形成了全球最大、最受认可的VQA数据集,包含超过20万张真实照片和110万道试题。第一次超越人类!在“看图理解”这件事上,AI比你的眼睛还毒辣|达摩院》>据了解,今年6月,阿里达摩院在55支参赛队伍中获得VQA2021挑战赛冠军,领先第二名约1个百分点,去年的冠军为3.4个百分点。而今天,刚好有两个几个月后,达摩院以81.26%的准确率再次刷新VQALeaderboard全球纪录,达摩院评论:这个结果意味着,AI在封闭数据集上的VQA表现堪比人类。相关论文链接:[1]https://aclanthology.org/2021.acl-long.42/[2]https://aclanthology.org/2021.acl-long.493/[3]https://openreview.net/forum?id=Wg2PSpLZiHVQA示例链接:https://nlp.aliyun.com/portal#/multi_modal达摩学院AliceMind开源链接:https://github.com/alibaba/AliceMind
