当前位置: 首页 > 科技观察

全球最大公众人脸数据集-清华大学&信义科技联合发布

时间:2023-03-13 19:43:04 科技观察

本文经人工智能新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。在人脸识别领域,中国队再次传来喜讯。全球最大人脸数据集发布。首次包含百万ID和数亿张图片。这是信义科技与清华大学自动化系智能视觉实验室合作推出的WebFace260M。相关研究已被CVPR2021录用。而且,基于清洗后的数据集WebFace42M,在最具挑战性的IJBC测试集上达到了SOTA水平。而它带来的“世界之最”还不止于此。基于该数据集,信义科技在最新的NIST-FRVT榜单中摘得戴口罩人脸识别评测全球第一名。世界上最大的人脸数据集长什么样?WebFace260M数据集完全基于来自全球互联网的公共人脸数据。它的问世一举打破了以往人脸数据集的规模:不仅规模最大,而且人脸ID数量和图片数量分别首次达到400万和2.6亿张。此外,研究人员还提出了一种基于自训练全自动迭代的清洁过程(CleaningAutomaticallybySelf-Training,CAST)。该方法的灵感来自于对互联网人脸数据的观察和分析。WebFace260M数据提供了一个粗略的分类,可以作为清洗算法的初始结构。此外,研究人员发现,在大规模噪声人脸数据清洗中,嵌入特征非常重要,可以通过同时迭代数据和模型来增强这一特征。因此,整个清洗过程如下图所示:首先,使用名为MS1M的公共数据集训练一个“教师模型”,清洗原始的WebFace260M。其次,使用“学生模型”对上一步清理的图像进行训练。最后让“学生模型”切换到“教师模型”,不断迭代,直到得到一个高质量的WebFace42M。这样,清洗WebFace260M后,就得到了WebFace42M。据介绍,它是目前全球最大的可直接用于训练的净人脸数据集:包含200万个ID和4200万张图片。关于WebFace260M和WebFace42M的“全球最佳”,一张表格的数据对比一目了然:同时,针对目前人脸识别的评测问题,研究人员发布了“限时人脸识别测评”更贴近实际应用。Guidelines”-FRUITS(FaceRecognitionUnderInferenceTimeconStraint),以及分布更广泛、更具挑战性、更详细的人脸测试集,将推动人脸识别评估更接近真实场景。同时,研究人员将继续对测试集和评估系统进行维护、迭代和升级,持续助力行业技术发展。这样的数据集好用吗?对于这个问题,答案是肯定的,而且是已经实践和实践过的那种公认的非常专业,以WebFace42M为例,在目前公开的、最具挑战性的IJBC测试集上可以做到新的SOTA,相对错误率降低了40%,另外还有一个比赛叫做NIST-FRVT,由美国国家标准技术研究院主办,素有“金脸识别大赛”之称。因为它有非公开评测等诸多严格要求ionsets,对提交频率的严格限制,对计算时间的严格限制,堪称全球最严格最权威的人脸识别算法测评。那么当WebFace42M的数据遇到如此棘手的事件,会擦出什么样的火花呢?早在去年10月,仅凭WebFace42M的数据,信义科技就取得了NIST-FRVT榜单前三的成绩。在刚刚发布的最新NIST-FRVT榜单上,基于WebFace42M再次创造了“戴口罩人脸识别评测”的“世界之最”——夺冠。而且从数据中也不难看出,第二名的成绩可以说是两个数量级。此外,在1:1的人脸识别评测中,还取得了全球前三的综合排名。为什么要做这样的数据集?人脸识别,这项技术可以说是真的火了。它变得如此流行以至于它已经进入了人们的日常生活。签到、开门、解锁手机等,都成了它大展拳脚的地方。也正是因为如此,学术界和工业界的研究人员形成了对人脸识别准确率和速度的争锋相对的状态。据研究,人脸数据集对上述影响最大。尤其是在当前以深度学习为中心的人工智能研发模式下,软件开发将逐步从传统的软件1.0时代过渡到以数据为核心的“数据即代码,模型即软件”的软件2.0时代。但在数据集方面,目前的现状是:公开数据规模与实际人脸识别系统所需数据??规模差距过大。怎么说?比如在WebFace260M发布之前,公开数据规模较小,最大的是MegaFace2和MS1M。MegaFace2有67.2万个ID和470万张图片,MS1M有10万个ID和1000万张图片。如此大规模的公开数据,远远不能满足实际人脸识别系统对研究人员的数据需求。同时,这只是限制人脸识别技术发展的瓶颈之一,评价标准和测试集也是重要因素。目前公开的人脸识别评测集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,准确率基本饱和。同时,还存在不同场景下表现不够细致的情况。因此,WebFace260M和WebFace42M及相关Benchmarks的推出,可以说在一定程度上缩小了公共数据集规模与实际应用行业的差距,进一步推动了以深度学习为核心的人脸识别相关技术的进步.,促进智能产业的繁荣发展。比起规模上的突破,更大的意义应该在于“科技向善”和“数据生态”。经过这几年的发展,人脸识别和人工智能技术取得了长足的进步,也产生了显着的社会和经济价值,但也出现了很多技术发展带来的社会问题。团队希望通过这个数据集的建立和相关工作,与行业和社会各界一起,建立人脸识别测试和应用标准,规范人脸识别应用市场,治理人脸识别应用乱象.智能科技的价值与温度。此外,在数字经济和智能化快速发展的今天,数字资源已经像水和电一样成为必需品;同时,它们像石油一样珍贵,需要有计划地生产、使用、共享和交易。但目前的情况是,国内外普遍对此重视不够,具体包括行业规范不规范、共享不足、缺乏长远规划,进而抑制了数字经济和智能化进程的发展。.目前,国家层面鼓励并高度重视数据集的创新和标准化。清华大学和信义科技的研究人员也在积极响应国家号召和政策要求,希望与国家、政府机构、学术界和产业界共同打造智能数据集。现代化时代开放、共享、安全的数据生态。网址:https://www.face-benchmark.org论文地址:https://arxiv.org/abs/2103.04098