当前位置: 首页 > 科技观察

AI看图说话第一次超人!微软CognitiveAI团队提出视觉词汇预训练超越Transformer

时间:2023-03-11 21:00:40 科技观察

会看图会说话的AI,性能超越人类?近日,Azure悄然推出了一项新的人工智能服务,可以准确地说出图片中的内容。其背后的视觉词汇技术超越了以变形金刚为基础的前辈,获得了nocaps挑战赛冠军。你有没有注意到你搜索的图像有时相关性很差?现在很多搜索引擎都是基于图片的文字标签,但是我们的世界每天都会产生无数的照片,而且很多都是不带标签直接上传到网上的,这给图片搜索带来了很多困惑。如果系统能够自动为图片添加准确的描述,图片搜索的效率将会大大提高。看图说话的AI:基于模板和Transformers,看图(或图像描述)不尽如人意,近年备受关注。它可以自动生成图片描述。但目前无论是学术界还是工业界,做起来的效果都不尽如人意。图说系统一方面需要计算机视觉进行图像识别,另一方面需要自然语言来描述识别的物体。有标签的图片可以有针对性的训练,那么如果有新的物体没有被标注,系统会不会失效呢?这个问题困扰了人们很久,就是要把一个新事物描述清楚。在人工智能领域,基准测试通常用于验证模型的质量。比如在NLP方向会用到GLUE、SuperGLUE等,在图像识别方面会用到ImageNet。为了测试模型是否可以在没有训练数据的情况下完成图片和说话,nocaps应运而生。nocaps可以衡量模型是否可以准确描述以前没有出现过的物体。传统的看图说话有两种方式:一种是模板生成,一种是基于Transformer的图文交互预训练。模板生成方式可以在简单的场景下使用,但是无法捕捉到深层的图文关系,而且基于Transformer的模型需要大量的标注数据,不适合nocaps。为了解决这些问题,微软认知服务团队的研究人员提出了一种名为视觉词汇预训练(VIVO)的解决方案。无需配对图形数据,VIVO在读图和说话方面夺冠Nocaps首次超越人类成对的图形数据,可以直接使用ImageNet等数据集的类标签。在VIVO的帮助下,模型可以学习物体的视觉外观和语义之间的关系,并建立视觉词汇表。这个视觉词汇是什么?其实就是图像和文字的联合特征空间。在这个特征空间中,语义相近的词会聚集在一起,比如金毛和牧羊犬,手风琴和乐器。经过预训练和构建词汇表后,模型只需要在具有少量共同对象的成对图文数据上进行微调,模型就可以自动生成通用模板句。Coping相当于将图片和描述的各个部分解耦。因此,VIVO不仅可以利用预训练强大的物体识别能力,还可以利用模板的通用性来处理新的物体。AzureAICognitiveServices首席技术官黄学东解释说,视觉词汇的预训练类似于让孩子先阅读一本将单个单词与图像相关联的图画书,例如下面的苹果图片有单词苹果,以及猫图片下方的猫字。视觉词汇的预训练本质上就是训练系统完成这种动作记忆。目前,VIVO在nocaps挑战中取得了SOTA成绩,首次超越了人类。VIVO的成功不仅仅是挑战的SOTA,还有实际应用。看图说话SOTA已经上线,AI不能一直处于灰色迭代。据世界卫生组织统计,全世界各年龄段的视力障碍者估计有2.85亿人,其中有3900万人是盲人。受损用户想要获取图片和视频中的信息,必须依赖自动生成的图片描述或字幕(或进一步转化为语音),他们信任这些自动生成的描述,而不管字幕是否有意义。“理想情况下,每个人都应该在文档、网络和社交媒体中为图像添加描述,因为这可以让盲人访问内容并参与对话。”然而,这是很不现实的,很多图片并没有对应的文字。AzureAI认知服务首席技术官黄学东表示:“看图说话是计算机视觉的核心能力之一,可以提供广泛的服务。”现在vivo的看图说话能力已经集成到AzureAI中,任何人都可以将其集成到自己的视觉AI应用中。黄学东认为,将VIVO的突破带到Azure,服务更广泛的客户群,不仅是研究上的突破,更重要的是将这一突破转化为Azure上的产品所需要的时间。基于VIVO的SeeingAI小程序已经在苹果应用商店上架,Azure也推出了免费API,供盲人或视障人士免费使用。如果加上Azure的翻译服务,Kantuspeak可以支持80多种语言。的确,太多的实验室SOTA技术陷入了灰色迭代,未能完成最初的使命。看图说话只是认知智能的一小步。受古腾堡印刷机启发创造新魔法近年来,微软一直在寻求超越现有技术的人工智能。作为AzureCognitiveServices的首席技术官,黄学东的团队一直在探索如何以更全面、更人性化的方式来学习和理解世界。他认为,要获得更好的认知能力,三个要素至关重要,单语文本(X)、听觉或视觉等感官信号(Y)和多语(Z)。在这三者的交汇处,出现了一种新的魔法——XYZ-Code,它可以创造出更强大的人工智能,可以更好地听、说、看和理解人类。“我们相信XYZ-Code正在实现我们的长期愿景:跨领域、跨模态和跨语言学习。我们的目标是构建预训练模型,可以学习广泛的下游AI任务的表征,就像今天人类所做的那样。”Huang的团队从德国发明家约翰内斯·古腾堡(JohannesGutenberg)那里获得灵感,后者于1440年发明了印刷机,使人类能够快速、大量地分享知识。作为历史上最重要的发明之一,古腾堡的印刷机彻底改变了社会发展的方式。古腾堡和他的印刷机在当今的数字时代,认知智能的愿景也是开发一种可以像人一样学习和推理的技术,对各种情况和意图做出准确的推断,进而做出合理的决策决策。在过去的五年里,我们在人工智能的许多领域都实现了与人类的平价,包括语音识别对话、机器翻译、问答对话、机器阅读理解和看图说话。这五项突破让我们更有信心实现人工智能的飞跃,XYZ-Code将成为多感官多语言学习的重要组成部分,最终让人工智能更像人类。正如古腾堡的印刷机彻底改变了交流过程,认知智能将帮助我们实现人工智能的伟大复兴。看图谈心得链接:https://apps.apple.com/us/app/seeing-ai/id999062298