当前位置: 首页 > 科技观察

JeffDean万字长文:2020年谷歌10大领域AI技术发展

时间:2023-03-14 14:45:12 科技观察

JeffDean发布万字长文,回顾谷歌这一年在各领域取得的成绩和突破,期待工作2021年目标。  “当我20多年前加入谷歌时,我只是想弄清楚如何真正开始使用计算机在网络上提供高质量和全面的信息搜索服务。快进到今天,面对更广泛的技术挑战  2020年,随着世界被冠状病毒重塑,我们看到了技术如何帮助数十亿人更好地沟通、了解世界和完成任务。我为我们所取得的成就感到自豪,并对即将出现的新可能性感到兴奋。”  GoogleResearch旨在解决从预测冠状病毒疾病的传播到设计算法的长期问题自动翻译越来越多的语言,以减少机器学习模型中的偏差。  这篇文章涵盖了今年的主要亮点。  COVID-19和健康  COVID-19的影响采取了对人们的生命造成巨大损失,世界各地的研究人员和开发人员正在联手开发工具和技术,以帮助公共卫生官员和政策制定者了解和应对这一流行病。  Apple和Google于2020年合作开发了ExposureNotification系统(ENS),一种支持蓝牙的隐私保护技术,如果人们接触过测试呈阳性的其他人,它会通知他们。  ENS补充了传统的接触者追踪工作,并由公众部署50多个国家、州和地区的卫生当局帮助遏制感染的传播。  在大流行初期,公共卫生官员表示他们需要更全面的数据来对抗病毒的快速传播。我们的社区流动报告提供了对人口流动趋势的匿名跟踪,不仅可以帮助研究人员了解政策的影响,例如居家令和社交距离,还可以预测经济影响。  我们自己的研究人员也探索了使用此类匿名数据来预测COVID-19的传播,用图神经网络取代传统的基于时间序列的模型。  COVID-19搜索趋势症状使研究人员能够探索症状之间的时间或联系,例如嗅觉缺失——有时是该病毒的症状之一。为了进一步支持更广泛的研究社区,我们推出了GoogleHealthResearch应用程序,为公众提供一种参与研究的方式。图:COVID-19搜索趋势正在帮助研究人员研究疾病传播与症状相关搜索经济影响之间的联系。图:模拟新冠病毒传播的时空图  全球失明原因),以及潜在的新型非侵入性诊断(例如,从视网膜图像中检测贫血迹象的能力)。图:深度学习模型从视网膜图像中量化血红蛋白水平。血红蛋白水平是贫血的指标  今年,我们看到了一项激动人心的演示,展示了同样的技术如何能够深入研究人类基因组。谷歌的开源工具DeepVariant使用卷积神经网络从基因组测序数据中识别基因组变异,今年在4个类别中的3个类别中赢得了FDA的最佳准确性挑战。Dana-Farber癌症研究所领导的一项研究使用相同的工具在2,367名癌症患者中将导致前列腺癌和黑色素瘤的遗传变异的诊断提高了14%。  天气、环境和气候变化  机器学习可以帮助我们更好地了解环境,帮助人们在日常生活和灾难情况下做出有用的预测。  对于天气和降水预报,基于计算物理的模型(如NOAA的HRRR)占据主导地位。然而,我们已经能够证明,基于ML的预报系统可以以更好的空间分辨率预测当前降水量(“西雅图当地公园正在下雨吗?”而不仅仅是“西雅图正在下雨吗?”)它能够产生短期-长达8小时的长期预测,比HRRR准确得多,并且能够以更高的时间和空间分辨率更快地计算预测。我们还开发了一种名为HydroNets的改进技术,它使用神经网络对真实河流系统进行建模,以更准确地了解上游水位与下游洪水的相互作用,从而更准确地预测水位和洪水预报。利用这些技术,我们将印度和孟加拉国的洪水预警覆盖范围扩大了20倍,帮助更好地保护了25万平方公??里范围内的2亿多人。辅助功能  机器学习继续提供改善辅助功能的绝佳机会,因为它可以学习将一种感官输入转化为另一种感官输入。例如,我们发布了Lookout,这是一款Android应用程序,可帮助视障用户识别包装食品,无论是在杂货店还是在他们家的厨房橱柜中。Lookout背后的机器学习系统展示了一个强大而紧凑的机器学习模型,可以在拥有近200万种产品的手机上实时执行此操作。  同样,使用手语交流的人也很难使用视频会议系统,因为即使他们在手语,基于音频的说话人检测系统也无法检测到他们正在积极发言。为视频会议开发实时自动手语检测,我们提出了一个实时手语检测模型,并演示了如何使用该模型为视频会议系统提供一种机制,将手语识别为主动发言者。  机器学习在其他领域的应用  2020年,我们与FlyEM团队合作发布了果蝇半脑连接组,这是一个使用大规模机器重建的大脑连接的突触分辨率大图,将学习到的模型应用于大脑通过高分辨率电子显微镜成像的组织。这些连接组信息将帮助神经科学家进行各种研究,并帮助我们更好地了解大脑的工作原理。  ResponsibleAI  为了更好地理解语言模型的行为,我们开发了语言可解释性工具(LIT),这是一个更好地解释语言模型的工具包,使交互式探索和分析语言模型决策成为可能。  我们开发了用于衡量预训练语言模型中性别相关性的技术,以及用于减少谷歌翻译中性别偏见的可扩展技术。  为了帮助外行理解机器学习结果,我们扩展了2019年推出的TCAV技术,现在提供了一套完整而充分的概念。可以说,“毛”和“长耳朵”是预测“兔子”的重要概念。从这项工作中,我们也可以说这两个概念足以充分解释预测;你不需要任何其他概念。概念瓶颈建模是一种技术,它通过训练模型使其其中一层与预定义的专家概念(例如,“骨刺呈现”或“机翼颜色”,如下所示)对齐,然后再做出最终决定任务。预测,这样我们不仅可以解释这些概念,还可以动态地打开/关闭它们。自然语言理解  更好地理解语言是我们今年取得长足进步的领域。谷歌和其他公司在这一领域的大部分工作现在都依赖于transformers,这是一种特殊风格的神经网络模型,最初是为解决语言问题而开发的(但越来越多的证据表明它们对图像、视频、语音、蛋白质折叠、以及各种其他域也很有用)。  在2020年,我们描述了Meena,这是一个可以谈论任何事情的对话机器人。机器学习算法  谷歌仍在朝无监督学习方向大力发展,例如2020年开发的SimCLR,推进自监督和半监督学习技术。ImageClass分类器使用通过不同自监督方法(在ImageNet上预训练)学习的表示来训练到ImageNettop-1精度。灰色十字代表受监督的ResNet-50。  强化学习  强化学习谷歌通过向其他代理学习和改进探索来提高RL算法的效率。  他们今年的主要重点是离线强化学习,它只依赖于固定的、以前收集的数据集(比如以前的实验或人类演示),将强化学习扩展到无法即时收集训练数据的应用程序。研究人员为RL引入了双重方法,开发了改进的离策略评估算法,并与更广泛的社区合作,通过发布开源基准数据集和Atari的DQN数据集来解决这些问题。使用DQN回放数据集的Atari游戏的离线RL  另一个研究方向是通过学徒学习,从其他代理人那里学习可以提高样本效率。  请注意,将RL扩展到复杂的实际问题是一个重要的挑战。概述我们的方法并说明AttentionAgent中的数据处理管道。顶部:输入转换——一个滑动窗口将输入图像分割成更小的块,然后“展平”以供将来处理。中间。补丁选举-修改后的自我注意模块在补丁之间投票以生成补丁重要性向量。底部:动作生成-AttentionAgent对补丁进行投票以生成补丁的重要性向量。ActionGeneration——AttentionAgent选择最重要的补丁,提取相应的特征,并根据这些特征做出决策。AutoML  毫无疑问,这是一个非常活跃和令人兴奋的研究领域。  我在AutoML-Zero:LearningCode中,我们采用另一种方法,提供一种进化算法,其搜索空间由非常原始的操作组成,例如加法、减法、变量赋值和矩阵乘法,看看它是否有可能从头开始开发现代ML算法。  不过,有用的算法很少。如下图所示,该系统重塑了过去30年许多最重要的ML发现,例如线性模型、梯度下降、修正线性单元、高效的学习率设置和权重初始化以及梯度归一化。更好地理解ML算法和模型  随着神经网络变得越来越广泛和深入,它们往往训练得更快并且泛化得更好。这是深度学习的核心谜团,因为经典学习理论表明大型网络应该更多地过度配置。  在无限宽的约束下,神经网络表现出惊人的简单形式,并由神经网络高斯过程(NNGP)或神经正切核(NTK)描述。谷歌研究人员从理论上和实验上研究了这种现象,并发布了NeuralTangents,这是一个用JAX编写的开源软件库,允许研究人员构建和训练无限宽度的神经网络。左图:该示意图显示了深度神经网络如何在变得无限宽时引入简单的输入/输出图。右图:随着神经网络宽度的增加,我们看到网络不同随机实例的输出分布变为高斯分布。机器感知  对我们周围世界的感知——理解、建模并根据视觉、听觉和多模式输入采取行动——仍然是一个研究领域,具有极大的潜力可以造福于我们的日常生活。  在2020年,深度学习将3D计算机视觉和计算机图形学更加紧密地结合在一起。CvxNet、3D形状的深度隐式函数、神经体素渲染和CoReNet是这个方向的几个例子。此外,他们将场景表示为神经辐射场(又名NeRF,另请参阅此博客文章)的工作很好地说明了GoogleResearch的学术合作如何促进神经体积渲染领域的快速发展。在《学习因素化和重新点亮城市》中,谷歌与加州大学伯克利分校合作,提出了一个基于学习的框架,用于将户外场景分解为时间和空间变化的照明和永久场景因素。这可以改变任何街景全景图的灯光效果和场景几何形状,甚至可以将其变成一整天的延时视频。2020年,他们还在使用神经网络进行媒体压缩的领域不断扩大,不仅在学习图像压缩方面取得了不错的成绩,而且在视频压缩、体积压缩和深度不可知图像水印的深度方法方面也取得了不错的成绩。第一行:没有嵌入信息的封面图片。第二行:来自HiDDeN组合失真模型的编码图像。第三行:来自我们模型的编码图像。第四行:编码图像和HiDDeN组合模型的封面图像的归一化差异。第5行:模型的归一化差异  通过开源解决方案和数据集与更广泛的研究社区合作是另一个重要方面。2020年,谷歌在MediaPipe中开源了多种新的感知推理功能和解决方案,例如设备端人脸、手部和姿势预测,实时身体姿势跟踪,实时虹膜跟踪和深度估计,以及实时-时间3D对象检测。“最后,展望这一年,我特别热衷于构建更通用的机器学习模型的可能性,这些模型可以处理各种各样的模式,并且可以通过很少的训练示例自动学习完成新任务。  该领域的进步将为人们提供更强大的产品,为全球数十亿人带来更好的翻译、语音识别、语言理解和创作工具。  这种探索和影响是我们工作的兴奋点!“