当前位置: 首页 > 科技观察

如果AI无法理解“他,她,它”怎么办?动词成为新的突破口,当机器人听到黄油时,它就知道如何使用刀叉

时间:2023-03-17 15:02:18 科技观察

向AI发出指令。没错,虽然AI可以理解一些特定的人类指令,例如:帮助从餐厅搬走一把椅子。但如果你换成只有代词(他/她/它/这个/那个/东西……)和动词的模糊指令,AI就不知所措了:帮忙找点东西站着。现在,一些研究人员终于想出了一个新的解决方案:让AI学会理解动词?动词本身绑定到一些特定的名词。比如“抹黄油”这个动作,一定离不开“刀”“叉”等名词。只需要把它们匹配起来,不用“刀叉”之类的名词指令,AI也能准确找到目标物体:目前这篇论文正式收录在NeurIPS2022中,相关模型也已经开源:Sohowhow它会训练AI理解动词吗?覆盖名词,让AI“看图找物”论文提出了一个框架,叫做TOIST。TOIST全称是“TaskOrientedInstanceSegmentationTransformer”(面向任务的实例分割转换器),是一种基于Transformer的实例分割新解决方案。实例分割不同于语义分割的“全图切割”。它还具有目标检测的特点。例如下图使用名词“两厢车”(hatchbackcar)直接找到对应的对象:之前,实例分割模型通常分为“两步”,第一步是检测可能的目标,然后第二步是对可能的目标进行排序并预测最有可能的结果。但与这种做法不同的是,TOIST框架直接采用了一整套Transformer架构,其中decoder中的self-attention机制可以建立候选目标之间的偏好关系。整个TOIST框架分为三个部分。其中,multimodalencoder(棕色部分)负责提取特征标记,Transformerencoder(绿色部分)负责聚合两种模态的特征,并基于Transformerdecoder中的attention机制(蓝色部分)预测最合适的目标。随后,论文提出了一种新的名词代词蒸馏法(noun-pronoundistillation)来训练模型。具体来说,基于知识蒸馏(上述师生模型)框架,以无监督学习的方式,训练AI根据上下文“猜测”名词原型。比如原来的实例分割任务是“用滑板挖洞”,但是在训练模型的时候,名词“滑板”(skateboard)会被代词“something”(某物)代替:这样,当AI不知道名词,也能凭空猜出正确的名词,并分割出图片中正确的目标:这种分割效果在实际案例中表现如何?目标检测准确率提高10.9%论文在大规模任务数据集COCO-Tasks上测试了TOIST。评估方法使用mAP(meanAveragePrecision),这在目标检测等视觉任务中很常见。简单来说,TOIST比之前的实例分割和目标检测模型SOTA模型表现更好,加上名词代词蒸馏法的“增强版”TOIST比TOIST表现更好。其中,在目标检测任务上,与目前最好的Yolo+GGNN相比,“增强版”TOIST的决策框精度mAP提升了10.9%,在实例分割任务上,mask精度比Yolo+GGNN提高了6.6%Mask-RCNN+GGNN%。至于所提出的名词代词蒸馏方法,与原始版本的TOIST相比,它在实例分割任务上的准确率分别提高了2.8%和3.8%。具体到案例表现上,模型效果也非常接近实际的分割真值。比如在图(d)中,算法竟然识别出了桌子可以用来打开啤酒瓶盖,可以说是领悟力十足:对于这个研究的初衷,作者回应说:我们的实验室其实是负责机器人的研究,但在平时的研究中发现,用户有时更倾向于向机器人描述“需要”,而不是直接告诉机器人该做什么。换句话说,就是用AI算法让机器人“多思考一步”,而不仅仅是听从命令的助手。作者简介本文作者分别来自清华大学智能产业研究院(AIR)、北京大学和英特尔研究院,AIR院长张亚勤也是作者之一。论文第一作者李鹏飞,清华大学智能产业研究院博士研究生。毕业于中国科学院大学,获学士学位。研究方向为自动驾驶和计算机视觉。通讯作者赵昊是清华大学智能产业研究院新任助理教授,英特尔中国研究院研究员,北京大学联合博士后。本博毕业于清华大学电子工程系。他的研究兴趣是机器人和计算机视觉方向。论文地址:https://arxiv.org/abs/2210.10775项目地址:https://github.com/AIR-DISCOVER/TOIST