当前位置: 首页 > 科技观察

刷新ImageNet最高分!谷歌大脑中国研究人员发布超级Transformer

时间:2023-03-16 00:38:46 科技观察

近日,谷歌大脑团队公布了VisionTransformer(ViT)进阶版ViT-G/14,这是一个参数高达20亿的CV模型。在用30亿张图片训练后,刷新了ImageNet上的最高准确率记录——90.45%,此前ViT达到的最高准确率记录为88.36%。不仅如此,ViT-G/14还超越了Google之前提出的MetaPseduoLabels模型。VisionTransformer模型的缩放定律在ImageNet、ImageNet-v2、VTAB-1k和ViT-G/14等多个基准测试中都打破了记录。例如,在几张照片的识别挑战中,准确率提高了五个百分点以上。然后,研究人员训练了该模型的多个较小版本,以找到架构的缩放法则,并观察了遵循幂律函数的性能,类似于用于NLP的Transformer模型。Transformer架构于2017年由谷歌首次推出,迅速成为最流行的NLP深度学习模型设计,其中以OpenAI的GPT-3最为著名。OpenAI去年发表的一项研究描述了这些模型的缩放规则。OpenAI开发了一种幂律函数,通过训练几个不同大小、不同训练数据量和处理能力的可比较模型来评估模型的准确性。此外,OpenAI发现更大的模型不仅性能更好,而且计算效率更高。与NLP模型不同,大多数SOTACV深度学习模型使用卷积神经网络架构(CNN)。CNN在2012年声名鹊起,当时CNN模型赢得了ImageNet竞赛。随着Transformer最近在NLP领域的成功,研究人员开始关注它在视觉问题上的表现;例如,OpenAI构建了基于GPT-3的图像生成系统。谷歌在这个领域一直非常活跃,在2020年底使用他们专有的JFT-300M数据集训练了一个600m参数的ViT模型。△去年10月,GoogleBrain团队发布了VisionTransformer(ViT),新的ViT-G/14模型使用JFT-3B进行预训练,该数据集是包含约30亿张图片的升级版。研究团队改进了ViT架构以增加内存使用,使模型能够适应单个TPUv3内核。研究人员在预训练模型上使用少样本和微调迁移学习来评估ViT-G/14和其他较小模型的性能。这些发现被用来创建类似于NLP规则的缩放规则:根据幂律函数缩放更多的计算、模型和数据可以提高准确性;准确性可能成为较小模型的障碍;大型数据集对大型模型很有帮助。目前,ViT-G/14得分在ImageNet排行榜上排名第一。下面八个得分最高的模型也是由谷歌的研究人员创建的,而第十个模型来自Facebook。作者团队本论文的团队成员为之前发布过ViT模型的4名成员,其中第一作者为翟晓华(谭晓华)。https://sites.google.com/site/xzhai89/home翟晓华目前是谷歌大脑的研究员。他的研究领域是深度学习和计算机视觉。感兴趣的领域包括表示学习、迁移学习、自我监督学习、生成模型、跨模态感知。根据其个人网站提供的信息,翟晓华2009年毕业于南京大学,获博士学位。2014年获得北京大学计算机科学博士学位。此外,该论文的作者AlexanderKolesnikov也是谷歌大脑的研究员,他的研究领域包括人工智能、机器学习、深度学习和计算机视觉。毕业于奥地利科学技术学院(ISTAustria),博士论文Weakly-SupervisedSegmentationandUnsupervisedModelingofNaturalImages(弱监督分割和无监督自然图像建模)。另一位作者NeilHoulsby研究机器学习、人工智能、计算机视觉和自然语言处理。第四作者LucasBeyer是一位自学成才的黑客和研究科学家,致力于帮助机器人理解世界和人类理解深度学习。