当前位置: 首页 > 科技观察

JeffDean长期展望:2021年之后,机器学习领域的五个潜在趋势

时间:2023-03-17 11:56:43 科技观察

过去几年,我们见证了机器学习(ML)和计算机科学领域的许多变化。随着这一漫长的进步弧线,未来几年可能会出现许多激动人心的发展,这些发展最终将造福数十亿人的生活,并产生比以往任何时候都更大的影响。GoogleAI负责人、知名学者JeffDean在一篇总结文章中,重点关注了2021年后机器学习最具潜力的五个领域:趋势1:具有更强能力和通用性的机器学习模型趋势2:机器学习Ongoing效率增益趋势三:机器学习变得更个人化,对社区更有利趋势四:机器学习对科学、健康和可持续发展的影响越来越大趋势五:机器学习的影响更深更广理解文章具体内容如下:趋势1:更强大、更通用的机器学习模型研究人员正在训练比以往任何时候都更大、更强大的机器学习模型。在过去的几年里,语言领域已经从在百亿token数据上训练的数十亿参数模型(如110亿参数T5模型)发展到在万亿token数据上训练的千亿或万亿参数模型(比如OpenAI的GPT-3的1750亿参数和DeepMind的Gopher等稠密模型的2800亿参数,谷歌的GShard的6000亿参数和GLaM等稀疏模型的1.2万亿参数)。数据集和模型大小的增加导致多语言任务的准确性显着提高,标准NLP基准测试任务的整体改进证明了这一点。许多最先进的模型都专注于单一但重要的书面语言形式,并在语言理解基准和开放式对话能力方面展示了最先进的结果,甚至在同一领域的多个任务中也是如此。同时,这些模型具有泛化到训练数据相对较少的新语言任务的能力,并且在某些情况下,新任务需要很少或不需要训练样本。在模拟威德尔海豹时,使用GoogleDialogueLaMDADialogueTransformer模型应用语言模型也对图像、视频和语音模型产生了重大影响,所有这些都从规模中受益匪浅。用于图像识别和视频分类的Transformer模型在许多基准测试中都达到了最先进的水平,我们证明了图像和视频数据的联合训练模型可以比单独的视频数据训练模型获得更高的性能。我们为图像和视频Transformer开发了稀疏的轴向注意力机制,找到了更好的方法来标记视觉Transformer模型的图像,并通过检查它们与CNN相比的运作方式来提高视觉Transformer方法的性能。理解。将卷积运算与Transformer模型相结合也有利于视觉和语音识别任务。生成模型的输出也有了很大的提升。这在图像生成模型中最为明显,这些模型在过去几年取得了重大进展。例如,最近的模型能够只给一个类别创建逼真的图像,填充低分辨率图像以创建看起来自然的高分辨率对应物,甚至可以创建任意长度的空中自然景观。基于给定类别生成全新图像的级联扩散模型示意图。除了先进的单模态模型,大规模的多模态模型也在开发中。一些最先进的多模态模型可以接受许多不同的输入模态,例如语音、图像、语音和视频,并产生不同的输出模态。这是一个令人兴奋的方向,就像现实世界一样,在多模态数据中有些东西更容易学习。同样,图像和文本配对可以帮助多语言检索任务,更好地理解如何配对文本和图像输入可以改进图像描述任务。视觉和文本数据的联合训练有助于提高视觉分类任务的准确性和鲁棒性,而图像、视频和语音任务的联合训练可以提高所有模态的泛化性能。谷歌基于视觉的机器人操作系统的机器人原理图,可泛化到新任务。所有这些趋势都指向更通用的模型,这些模型可以处理多种数据模式并解决数千甚至数万个任务。在接下来的几年里,我们将通过我们的下一代架构Pathways来实现这一愿景,并期望在这一领域取得实质性进展。Pathways我们正在努力构建一个可以泛化到数百万任务的单一模型趋势2:机器学习持续提高效率效率提高源于计算机硬件设计和机器学习算法的进步、元学习研究,并且正在推动更强大的功能用于机器学习模型。机器学习管道的许多方面,从用于训练和执行模型的硬件到机器学习架构的各个组件,都可以优化效率,同时保持或提高整体性能。更高的效率促成了许多关键进步,这些进步将继续显着提高机器学习的效率,从而能够开发更大、更高质量的机器学习模型,同时保持成本效益,并进一步促进民主化。一是机器学习加速性能的不断提升。每一代机器学习加速器都比前一代更强大,可实现更快的单芯片性能,并且通常会增加整体系统尺寸。2021年,我们推出了Google的第四代张量处理器TPUv4,它在MLPerf基准测试中比TPUv3提高了2.7倍。移动设备上的机器学习能力也在显着提高。Pixel6手机配备全新的GoogleTensor处理器,该处理器集成了强大的机器学习加速器,可为重要的设备功能提供支持。左:TPUv4板;中间:TPUv4舱室;右图:Pixel6手机中使用的谷歌张量芯片。二是机器学习编译和机器学习工作负载优化的持续改进。即使硬件无法更改,编译器的改进和机器学习加速器的其他系统软件优化也可以显着提高效率。在150个机器学习模型上使用基于ML的编译器进行自动调优,可实现端到端模型加速第三是发现由人类创造力驱动的更高效的模型架构。模型架构的不断改进大大减少了在许多问题上达到一定准确度所需的计算量。例如,VisionTransformer能够提高各种图像分类任务的SOTA结果,同时使用的计算量比CNN少4到10倍。第四个是发现由机器驱动的更高效的模型架构。神经架构搜索(NAS)可以自动发现对于给定问题域更有效的新机器学习架构。神经架构搜索的主要优点是它可以显着减少算法开发所需的工作量,因为对于搜索空间和问题域的每种组合,它只需要一次性的工作量。此外,虽然执行神经架构搜索的初始工作在计算上是昂贵的,但生成的模型可以大大减少下游研究和生产设置中的计算,从而减少总体资源需求。通过神经架构搜索找到的Primer架构比普通的Transformer模型效率高4倍。第五,是稀疏性的使用。所谓稀疏性是指模型的容量非常大,但对于给定的任务、example或token,只有一部分被激活。稀疏性是另一项重大的算法进步,可以大大提高效率。2017年,我们提出了稀疏门控混合专家层,它在多个翻译基准上取得了更好的结果,同时使用的计算量比最先进的密集LSTM模型少10倍。还有最近的SwinTransformer,它结合了混合专家式架构和Transformer模型架构,结果表明训练时间和效率都实现了更密集的T5-BaseTransformer模型的7倍加速。稀疏性的概念也可用于降低核心Transformer架构中注意力机制的成本。GoogleResearch提出的BigBird稀疏注意力模型由处理输入序列所有部分的全局令牌、局部令牌和一系列随机令牌组成。趋势3:机器学习变得更加个性化和对社区有益随着机器学习和硅硬件的创新(例如谷歌Pixel6上的谷歌张量处理器),许多新体验成为可能,使移动设备能够持续有效地运行感知周围的上下文和环境。这些进步提高了可访问性和易用性,同时也提高了计算能力,这对于移动摄影、实时翻译等功能至关重要。值得注意的是,最近的技术进步还为用户提供了更加个性化的体验,同时加强了隐私保护。可以看出,越来越多的人依赖手机摄像头来记录自己的日常生活,艺术地表达自己。机器学习在计算摄影中的巧妙应用不断改进手机摄像头的功能,使其更易于使用、性能更高,并生成更高质量的图像。例如,改进的HDR+、在极低光照下拍照的能力、更好的人像处理能力,以及对所有肤色更具包容性的相机,所有这些进步都能让用户拍出更好的照片。使用Google相册中现在提供的基于ML的强大工具(例如CinematicPhoto等),让您的照片拍摄更进一步。HDR+从一组全分辨率原始图像开始,每个图像都具有相同的曝光度(左);组合后的图像降低了噪点并增加了动态范围,从而产生了更高质量的最终图像(右)。除了使用手机进行创意表达外,许多人还依靠手机与他人进行实时交流,使用消息传递应用程序中的实时翻译和实时字幕来拨打电话。得益于自我监督学习和嘈杂学生训练等技术,语音识别的准确性不断提高,在有口音、嘈杂条件或重叠语音的环境以及多语言任务中都有显着改善。基于文本到语音合成的进步,人们可以在越来越多的平台上使用谷歌的大声朗读服务收听网页和文章,使信息更容易跨越形式和语言的障碍。根据最近的一项研究,注视识别是精神疲劳的重要生物标志物。(https://www.nature.com/articles/s41746-021-00415-6)鉴于这些新功能背后数据的潜在敏感性,它们必须默认设计为私有。其中许多在Android的私有计算核心内运行,这是一个与操作系统的其余部分隔离的开源安全环境。Android确保在没有用户操作的情况下,私有计算核心中处理的数据不会与任何应用程序共享。Android还阻止私有计算核心内的任何功能直接访问网络。相反,功能通过一小组开源API与私有计算服务进行通信,私有计算服务对信息进行去标识化处理,并利用联邦学习、联邦分析和私有信息检索等隐私技术在确保隐私的同时实现学习。联邦重构是一种新的局部联邦学习技术,将模型分为全局和局部参数趋势四:机器学习对科学、健康和可持续发展的影响越来越大近年来,从物理学到生物学,机器学习在各个方面的影响越来越大基础科学,并在可再生能源、医药等相关领域取得了许多优秀的实际应用。例如,计算机视觉模型正被用于解决个人和全球问题,它们可以协助医生进行日常工作,扩展人们对神经生理学的理解,并提供更准确的天气预报,从而简化救灾工作。通过发现减少排放和提高替代能源输出的方法,其他类型的机器学习模型被证明在应对气候变化方面至关重要。随着机器学习变得更加强大、成熟和广泛可用,此类模型甚至可以用作艺术家的创作工具。计算机视觉的大规模应用以获得新的见解过去十年计算机视觉的进步使计算机能够用于不同科学领域的各种任务。在神经科学中,自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中恢复脑组织的神经结缔结构。前几年,谷歌合作为果蝇、老鼠和鸣禽的大脑创造了这样的资源;去年,Google与哈佛大学的Lichtman实验室合作,分析了重建最多的脑组织样本,以及来自任何物种的此类样本。对大脑皮层所有层的多种细胞类型的人类皮层突触连接进行了非常详细的成像,并生成了第一个大规模研究。这项工作的目标是生成一种新资源,以帮助神经科学家研究人脑惊人的复杂性。例如,下图显示了成人大脑中大约860亿个神经元中的6个。来自谷歌重建的人类皮层的单个人类枝形吊灯神经元,以及连接到该细胞的一些锥体神经元。计算机视觉技术还提供了强大的工具来应对更大范围甚至全球范围内的挑战。基于深度学习的天气预报方法使用卫星和雷达图像作为输入,并结合其他大气数据,以产生比传统的基于物理的模型更准确的天气和降水预报,预测时间长达12小时。它们还可以比传统方法更快地生成更新的预报,这在极端天气发生时非常重要。这些案例的一个共同主题是机器学习模型能够根据可用视觉数据的分析高效准确地执行专门任务,支持下游任务。自动化设计空间探索在许多领域产生出色结果的另一种方法是允许机器学习算法以自动化方式探索和评估问题的设计空间以获得可能的解决方案。在一个应用程序中,基于Transformer的变分自动编码器学习创建美观实用的文档布局,并且可以扩展相同的方法来探索可能的空间布局。另一种机器学习驱动的方法可以自动探索计算机游戏规则调整的设计空间,提高游戏的可玩性和其他属性,使人类游戏设计师能够更快地创造出更好的游戏。VTN模型的可视化。它能够提取布局元素(段落、表格、图像等)之间有意义的联系,以生成逼真的复合文档(例如,具有更好的对齐方式和边距)。还有其他机器学习算法已被用于评估机器学习加速器芯片本身的计算机架构决策的设计空间。机器学习可用于快速创建ASIC设计的芯片布局,其性能优于人类专家生成的布局,并且可以在数小时而不是数周内生成。这降低了芯片的固定工程成本,并减少了为不同应用快速创建专用硬件的障碍。谷歌在其即将推出的TPU-v5芯片的设计中成功地使用了这种方法。这种探索性机器学习方法也已应用于材料发现。在谷歌研究院和加州理工学院的合作中,几种机器学习模型与改进的喷墨打印机和定制显微镜相结合,能够快速搜索数十万种可能的材料。这些自动化的设计空间探索方法可以帮助加速许多科学领域的发展,尤其是当生成实验和评估结果的整个实验周期可以以自动化或很大程度上自动化的方式完成时。未来几年,这种方法可能会在更多领域发挥良好作用。健康应用除了推进基础科学,机器学习还可以更广泛地推进医学和人类健康。使用计算机科学促进健康并不是什么新鲜事,但机器学习打开了新的大门、新的机遇和新的挑战。以基因组学领域为例。自基因组学诞生以来,计算一直很重要,但机器学习增加了新功能并破坏了旧范式。当谷歌研究人员开始在这一领域工作时,许多专家认为使用深度学习来帮助从测序仪输出中推断遗传变异的想法是牵强附会的。如今,这种机器学习方法被认为是最先进的。未来,机器学习将发挥更重要的作用。基因组学公司正在开发更准确、更快速的新型测序仪器,但这也带来了新的推理挑战。谷歌发布了开源软件DeepConsensus,并与UCSC、PEPPER-DeepVariant合作,支持这些前沿信息学的新仪器,希望更快的测序能为患者带来适用性。除了处理测序仪数据之外,还有其他机会可以使用机器学习来加速使用基因组信息实现个性化健康的过程。包含广泛表型和测序个体的大型生物库可能会彻底改变人类理解和管理疾病遗传易感性的方式。谷歌基于机器学习的表型分析方法提高了将大型图像和文本数据集转换为可用于遗传关联研究的表型的可扩展性,而DeepNull方法更好地利用大型表型数据进行基因发现。这两种方法都是开源的。生成解剖学和疾病特征的大规模量化以与生物库中的基因组数据整合的过程。正如机器学习帮助我们看到基因组数据的隐藏特征一样,它也可以帮助我们发现新信息并从其他健康数据类型中收集新见解。疾病诊断通常是关于识别模式、量化相关性或识别更大类别的新实例,这些任务是机器学习擅长的。谷歌研究人员已经使用机器学习解决了范围广泛的这些问题,但机器学习在医学影像方面的应用更进一步:谷歌2016年介绍深度学习在糖尿病视网膜病变筛查中应用的论文被美国医学会杂志接受.(JAMA)编辑选为十年来最具影响力的10篇论文之一。另一个雄心勃勃的医疗保健计划CareStudio使用最先进的ML和高级NLP技术来分析结构化数据和医疗记录,以便在正确的时间为临床医生提供最相关的信息——最终帮助他们提供更主动、更准确的服务关心。虽然机器学习对于扩大临床环境的可访问性和提高准确性可能很重要,但一个同样重要的新趋势正在出现:应用机器学习来帮助人们改善日常健康和福祉。日常设备中的强大传感器正在帮助大众化健康指标和信息,以便人们可以就自己的健康做出更明智的决定。我们已经看到智能手机摄像头已经可以评估心率和呼吸频率以帮助用户,即使没有额外的硬件,以及支持非接触式睡眠感应的NestHub设备可以让用户更好地了解他们的夜间健康状况。我们已经看到,一方面,我们可以在我们自己的ASR系统中显着提高无序语音的语音识别质量,另一方面,使用ML来帮助重建有语言障碍的人的声音,使他们能够使用他们的自己的声音沟通。由机器学习驱动的智能手机将帮助人们更好地研究新出现的皮肤状况或帮助视力有限的人慢跑。这些机会提供了一个不容忽视的光明未来。用于非接触式睡眠感应的自定义ML模型可有效处理连续的3D雷达张量流(汇总一定距离、频率和时间范围内的活动),以自动计算用户存在的可能性和觉醒(清醒或睡着)性概率。气候危机机器学习应用的另一个最重要的领域是气候变化,这是人类面临的极其紧迫的威胁。我们需要共同努力,扭转有害排放曲线,确保安全繁荣的未来。有关不同选择的气候影响的信息可以帮助我们以多种不同方式应对这一挑战。借助Eco-Directions,Google地图将向您显示最快和最省油的路线,让用户可以选择最适合他们的路线。谷歌地图中的野火图层在紧急情况下为人们提供重要的最新信息。趋势5:对机器学习的更深入和更广泛的理解随着ML在技术产品和社会中的应用越来越广泛,我们必须继续开发新技术,以确保它得到公平公正的应用,造福于所有人,而不仅仅是那些部分。一个重点领域是基于在线产品中用户活动的推荐系统。由于这些推荐系统通常由许多不同的组件组成,要了解它们的公平性通常需要深入了解各个组件以及它们组合时的行为方式。与推荐系统一样,上下文在机器翻译中很重要。由于大多数机器翻译系统在没有额外上下文的情况下孤立地翻译单个句子,因此它们通常会强化与性别、年龄或其他领域相关的偏见。为了解决其中一些问题,谷歌对其翻译系统中的性别偏见进行了长期研究。部署机器学习模型的另一个常见问题是分布偏移:如果用于训练模型的数据的统计分布与用作模型输入的数据的统计分布不同,则模型的行为有时可能无法预测。数据收集和数据集管理也是一个重要领域,因为用于训练机器学习模型的数据可能是下游应用程序中偏见和公平问题的潜在来源。分析机器学习中的此类数据级联可以帮助识别机器学习项目生命周期中可能对结果产生重大影响的许多地方。这项关于数据级联的研究为机器学习开发人员和设计人员修订的PAIR指南中的数据收集和评估提供了有证据支持的指导。不同颜色的箭头代表各种类型的数据级联,每种数据级联通常起源于上游,在机器学习开发过程中复合,并表现在下游。创建更具包容性和更少偏见的公共数据集是帮助改善每个人的机器学习领域的重要方法。2016年,谷歌发布了OpenImages数据集,该数据集包含约900万张图像,标注了涵盖数千个对象类别的图像标签和600个类别的边界框标注。去年,谷歌在OpenImagesExtended集合中引入了更具包容性的PeopleAnnotated(MIAP)数据集。这个集合包含更完整的人类层次结构的边界框注释,每个注释都注释了与公平相关的属性,包括感知的性别表示和感知的年龄范围。此外,随着机器学习模型变得更强大并在许多领域产生影响,保护机器学习中使用的私人信息仍然是一个研究重点。沿着这些思路,我们最近的一些工作解决了大型模型中的隐私问题,既通过从大型模型中提取训练数据,又通过指出如何将隐私纳入大型模型。除了在联邦学习和分析方面的工作外,谷歌还一直在用其他有原则和实用的机器学习技术来扩充工具箱。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文