看图片、看视频对现在的AI来说不再难。然而,当人工智能被用于分析视频中的人类动作时,传统的基于物体检测的方法会遇到挑战:静态物体的模式与行为动作的模式有很大差异,现有系统的效果并不理想。现在,基于这个想法,来自上海交通大学的卢策武团队将整个任务分为两个阶段:首先,将像素映射到由“原始活动”组成的过渡空间,然后使用可解释的逻辑规则检测原始活动进行推理。△左:传统方法,右:新方法新方法让AI真正理解剧中,娟福举杯(hold),右边人伸手去拿东西(reachfor):针对多人场景游戏中可以准确区分每个角色当前的动作:即使是快速骑自行车的人也可以完美跟随:像这样能够真正理解视频的AI可以应用于医疗、引导和警告等机器人领域。其中一篇论文是上海交通大学的李永禄博士,他在CVPR2020获得了三篇论文,相关代码目前已经开源。知识驱动的行为理解人工智能要向人类学习,首先要看人类是如何识别活动的。比如区分走路和跑步,我们肯定会优先考虑腿部的运动状态。再比如,区分一个人是不是在“喝水”,手是不是端着杯子,然后是头是不是碰到了杯子,这些动作就成为判断的标准。这些原子的或共同的动作可以被视为一个“原语”。我们只是将原语一个一个“组合”起来,推导出整体的动作,这就是人类的活动感知。那么AI是否也可以基于发现此类原语的能力,将其组合并编程为具有组合泛化的语义?因此,卢策吾团队提出了一种知识驱动的人类行为知识引擎HAKE(HumanActivityKnowledgeEngine)。它是一个两阶段系统:将像素映射到由原子活动基元跨越的中间空间,使用推理引擎将检测到的基元编程为具有明确定义的逻辑规则的语义,并在推理过程中更新规则。总体来说,以上两个阶段也可以分为两个任务。首先是建立一个知识库,其中包括一组丰富的活动原语标签作为推理的“燃料”。在与702名参与者合作后,HAKE目前拥有357,000张图像/帧、673,000张肖像、220,000个对象图元和2640万个PaSta图元。其次是构建逻辑规则库和推理机。在检测到图元后,研究团队使用深度学习提取视觉和语言表征来表示图元。然后,使用可解释的符号推理,根据逻辑规则对原语进行编程,捕捉因果的原始活动关系。在实验中,研究人员选择了基于HICO的HICO-DET,其中包含47,000张图片和600个交互,以及AVA,其中包含430个带有时空标签的视频。这两个大型基准数据集。两个数据集上的实例级活动检测:即同时定位活跃的人/事物并对活动进行分类。因此,HAKE,在HICO-DET上大大提升了之前的实例级方法,尤其是在raresets上,比TIN提升了9.74mAP(all-classaverageprecision),而且HAKE的上界也优于state-最先进的GT-HAKE方法。在AVA上,HAKE还提高了很多活动的检测性能,尤其是20个罕见的活动。通讯作者为上海交通大学计算机系教授卢策武。在加入上海交通大学之前,他获得了博士学位。香港中文大学毕业,曾在斯坦福大学任研究员,在李飞飞团队工作。现在,他的主要研究领域是计算机视觉、深度学习、深度强化学习和机器人视觉。第一个作品,李永禄,上海交通大学博士生。曾在中国科学院自动化研究所工作。CVPR2020,他连拿三篇论文,都是围绕知识驱动的行为理解(HumanActivityUnderstanding)展开的。论文:https://arxiv.org/abs/2202.06851v1开源链接:https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec
