新人脸识别工具:“国际人脸”可以用很少的数据识别人脸识别工具为什么会出现这样的错误?其实机器和人一样,看到陌生的外国人也会有“脸盲症”,只能认出“本地人”。来自其他国家/地区的“外国人”的识别准确率较低。如何解决这个问题呢?羊毛布?引用公开个人信息进行研究验证邓卫红团队供图研究团队正在讨论邓卫红团队供图关键是要让人脸识别工具尽可能多地识别全球居民的人脸,但这个??过程是不容易实现。北京邮电大学教授邓卫红告诉《中国科学报》,在人脸识别工具的开发中,使用的训练数据越多、越全,准确率就会越高。但由于不同国家对公民个人信息的保护,这种信息收集变得越来越困难。训练数据的缺失意味着人脸识别工具只能识别“熟人”,对于训练数据缺失的人识别准确率较低。近日,邓卫红课题组的一项研究取得新进展。团队透露,目前的人脸识别算法普遍存在跨国家/地区识别偏差的问题。自适应神经网络的偏差信息最大化,以改进对目标域的识别。10月27日,相关研究成果发表在IEEE主办的国际计算机视觉会议(ICCV)上。人脸识别工具的区域卷积神经网络是人工智能的代表算法之一,具有很强的图像表示学习能力。2012年,深度卷积神经网络在计算机视觉领域崭露头角,它的出现极大地推动了人脸识别的发展,成为人脸识别领域的主流技术。目前世界上大部分的人脸识别工具都是基于深度卷积神经网络技术开发的,但该技术的人脸数据源域是基于西方人的面部特征,面向不同的目标域,即不同国家/地区的居民。人脸信息识别的需求往往是“应接不暇”。邓卫红表示,由于缺乏标杆库,长期以来该领域的研究进展缓慢。一个人脸识别工具即使局部识别率很高,也很难准确到全世界的人。这导致了人脸识别工具的强烈区域化。为推动这项研究,邓卫红课题组构建了一个新的测试库——RFW,以科学客观地评估人脸识别中的偏差。研究人员在RFW数据库的基础上,验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的四种算法。“这种认知偏差确实存在,部分地区的错误率甚至是西方国家的两倍。”邓卫红说。论文评审专家表示,与现有数据库相比,RFW中的数据分布更加均匀,将成为更好的跨国/地区识别基准评价数据。为了探究这种偏差是否是由训练数据分布不平衡造成的,研究人员收集了一个涵盖全球各个地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法的双重影响.论文第一作者、北京邮电大学博士生王梅解释说,数据库训练数据均衡,算法相同,但在部分国家识别人脸信息难度较大/区域,导致识别准确率较低。如何在数据量少、人脸识别困难的情况下提高识别率?研究人员没有放弃。他们决定进一步研究该算法,并利用该算法使人脸识别工具举一反三。学习要靠“觉”。构建传统机器学习数据库的过程需要手动标记个人信息。该操作面临隐私泄露风险。研究人员受到用于对象识别的无监督域适应方法的启发。该方法使用无监督学习将源域和目标域映射到域不变特征空间并提高目标域性能。研究人员想用算法解决这个问题,让机器自己学习。“这相当于研究人员出试卷,机器作答。”邓卫红说。实施并不简单。在具体操作层面,物体识别不同于人脸识别。目标识别的源域和目标域可以重叠,信息获取相对便宜。足够的源域数据使识别工具能够区分和区分目标域信息。因此,研究人员提出了一种信息最大化的自适应网络。王梅介绍,该方法一方面减小了源域和目标域的全局分布差异,另一方面可以学习到有判别力的目标域特征。“也就是说,卷积神经网络可以在没有监督的情况下‘有意识地’学习目标域人脸的特征。”王梅说。为了解决两个领域之间类别不重叠的问题,信息最大化自适应网络使用谱聚类算法生成“伪标签”,并在监督下对带有伪标签的网络进行预适应,初步提高性能的目标域。这种聚类方案与其他不适用于人脸识别的领域自适应方法有着根本的不同。王梅解释说,新方法可以在全新的目标域上自主学习,无需人工干预,避免了隐私泄露的风险。为了进一步提高网络输出的判别力,研究人员还提出了一种新的基于互信息的自适应方法,以无监督的方式在目标域中的特征之间产生更大的边缘。与一般的监督损失和监督互信息不同,该方法具有无监督性质,可以利用所有未标记的目标域数据,无论这些数据是否成功分配了伪标签。基于公开数据验证,该方案能否在无监督条件下提高不同国家/地区居民人脸识别工具的识别率?研究人员使用了来自世界各地的名人的公开数据来进行验证。结果表明,信息最大化自适应网络能够成功地将源域的识别能力应用到其他国家的目标域人群中,识别性能优于其他域自适应方法。消融实验发现,互信息损失在减少识别偏差方面起着重要作用。王梅补充说,信息最大化自适应网络在跨姿态、跨场景应用中也有很好的泛化性能。鉴于良好的实验结果,研究团队发布了RFW数据集,以推动进一步的研究。目前,哈佛大学、帝国理工学院、清华大学、思科、华为、NEC、IBM等20多个国家的科研院所和企业研究团队已申请使用RFW进行多民族人脸识别研究。值得一提的是,该方法在进行自适应学习的同时,仍然需要利用源域区域采集到的标注数据来训练模型。这意味着源域数据存在隐私泄露的风险。如何在源域数据不向外传输的情况下进行目标域的自适应学习将是一个非常值得研究的问题。邓卫红表示,下一步是提出一种泛化能力更强的新算法,完全不用收集目标域数据,直接提升人脸识别工具在未知目标域的准确率。相关论文信息:http://whdeng.cn/RFW/index.html
