人脑是一种高效的智能来源,但目前的人工智能还没有达到这个水平。本月早些时候,OpenAI宣布它已经构建了有史以来最大的AI模型。这组名为GPT-3的惊人模型已成为一项令人印象深刻的伟大技术壮举。但在这辉煌的背后,也凸显了人工智能领域一个令人担忧的负面趋势——更可怕的是,主流舆论还没有给予足够的重视。现代人工智能模型消耗大量电力,电力需求正以惊人的速度增长。在深度学习时代,构建一流AI模型所需的计算资源平均每3.4个月翻一番;也就是说,从2012年到2018年,AI计算资源的消耗量增长了30万倍。而GPT-3正是这一趋势的最新体现。总而言之,人工智能技术带来的碳排放不容忽视;如果行业趋势继续下去,情况很快就会失控。除非我们愿意重新评估和改革今天的人工智能研究议程,否则人工智能领域很可能在不久的将来成为气候变化的罪魁祸首。越大不一定越好在当今以深度学习为中心的研究范式中,人工智能的重大进步主要依赖于扩展模型:更大的数据集、更大的模型和更大的计算资源。GPT-3很好地说明了这种现象。这套模型包含多达1750亿个参数。为了帮助大家更直观地理解这个数字,其前身GPT-2模型(去年发布时,同样创下了体积级别的记录)只有15亿个参数。去年的GPT-2在petaflop驱动的设备上训练了数十天;相比之下,GPT-3的训练时间将增长到数千天。这种“一切都变大”的模式推动人工智能技术进步的问题在于,构建和部署这类模式需要大量的能源消耗,产生大量的碳排放。在2019年的一项广泛研究中,由EmmaStrubell领导的一组研究人员估计,训练一组深度学习模型可能会产生多达626,155磅的二氧化碳排放量——大约相当于五辆汽车从出厂到报废的排放量.二氧化碳排放总量。如果这还不够直观,每个美国人每年平均排放36,156磅二氧化碳。可以肯定的是,这个估计主要是针对高度依赖能量的模型。毕竟结合现在的现实,机器学习模型平均训练过程产生的二氧化碳绝不会超过60万磅。还值得注意的是,在进行此分析时,GPT-2仍然是研究领域中最大的模型,研究人员也将其视为深度学习模型的极限。但仅仅一年后,GPT-2已经成为“纤细小巧”的代名词,下一代模型的体积是它的一百多倍。为什么机器学习模型会消耗如此多的能量?最重要的原因是用于训练这些模型的数据集本身正在迅速增加权重。在对包含30亿个单词的数据集进行训练后,BERT模型在2018年实现了一流的自然语言处理(NLP)性能。在使用包含320亿个单词的训练集进行训练后,XLNet超越了BERT。不久之后,GPT-2开始在包含400亿个单词的数据集上进行训练。最后就是我们前面提到的GPT-3,它使用了约5000亿词的加权数据集。在训练过程中,神经网络需要对每条数据执行一组冗长的数学运算(前向传播和反向传播),并以复杂的方式更新模型参数。因此,数据集规模越大,相应的计算能力和能源需求也在快速增长。人工智能模型消耗大量能量的另一个原因是模型开发过程中需要进行大量的实验和调整。目前,机器学习在很大程度上仍是一个反复试验的过程。从业者通常会在训练过程中构建数百个版本的当前模型,尝试各种神经架构和超参数以确定最佳设计。上述2019年的论文还包含一个案例研究,其中研究人员采用了一个中等大小的模型(显然比GPT-3这样的庞然大物小得多)并测试了训练其最终版本所需的模型。计算了生产最终版本所需的功率和试运行总量。在六个月的时间里,研究人员共训练了4789个不同版本的模型,相当于单个GPU运行时间为9998天(超过27年)。考虑到所有因素,研究人员估计,构建该模型会产生约78,000磅二氧化碳,超过美国成年人两年平均排放量。而在这里,我们只讨论机器学习模型的训练部分。而训练只能算是模型生命周期的开始;训练完成后,我们还需要在真实环境中使用这些模型。在真实环境中部署和运行AI模型(即推理过程)比训练过程消耗的能量还要多。事实上,Nvidia估计神经网络总计算成本的80%到90%来自推理阶段,而不是训练阶段。例如,我们可以考虑自动驾驶汽车中的AI模型。我们需要先训练这个神经网络,教它如何开车。一旦经过训练并部署到车辆上,模型就会继续推断以在环境中导航——只要汽车在移动,模型的推断就会继续。不用说,模型中包含的参数数量越多,推理阶段施加的功率要求就越夸张。能源使用与碳排放要探讨这个问题,我们首先要找到能源使用与碳排放之间的对应关系。那么,如何准确判断这种对应关系呢?根据美国环境保护署(EPA)公布的数据,在美国,一千瓦时的电力平均相当于排放0.954磅的二氧化碳。该平均值反映了碳足迹的变化以及美国电网中不同电力来源(包括可再生能源、核能、天然气和煤炭)的客观比例。前文提到,Strubell在分析中使用了美国电力的平均碳排放量,根据不同AI模型的能源需求计算出相应的碳排放量。这个假设是相当合理的,因为AmazonWebServices的电力组合与美国整体的发电来源结构是一致的,目前大部分AI模型都会选择在公有云上训练。当然,如果AI模型尽可能使用可再生能源产生的电力进行训练,它的碳足迹将会减少。例如,谷歌云平台在其电力组合中的可再生能源比例高于AWS(根据Strubell的论文,AWS为17%,谷歌为56%)。我们还可以再举一个例子。由于该地区拥有丰富的清洁水电资源,在训练模型时,西北大西洋地区硬件设施产生的碳排放量将低于全国平均水平。值得一提的是,各大云服务商都在强调在碳排放控制方面的努力。但总的来说,Strubell认为美国的整体电力结构仍然具有足够的说服力,可以用来粗略准确地估算AI模型的碳足迹。模型大小和模型性能之间的关系随着收益递减可以帮助我们理解增加模型大小如何帮助人工智能技术的发展。这方面的数据非常明确:模型规模的不断增大,最终会导致性能回报的急剧下降。我们用例子来说明这一点。ResNet是2015年发布的一个著名的计算机视觉模型,该模型的改进版本ResNeXt于2017年问世。与ResNet相比,ResNeXt需要多35%的计算资源(按总浮点运算计算),但准确度仅增加0.5%。在艾伦人工智能研究所2019年的一篇论文中,我们可以看到更详尽的比较数据,这些数据记录了不同任务、模型和AI子领域的模型规模收益递减。与GPT-2相比,最近发布的超大型GPT-3模型也显示出明显的收益递减迹象。如果AI社区继续目前的道路,研究人员将不可避免地花费越来越多的精力来构建越来越大的模型,但由此带来的性能提升会越来越小。这意味着成本/收益比将变得越来越不成比例。既然收益递减是客观存在的,那为什么还要不断推出越来越大的机型呢?主要原因之一是AI社区仍然过于关注能够在性能基准上创下新高的“最新”记录。一个在知名基准上达到新顶点的模型(即使只是一个百分点)获得研究人员的一致认可和好评。正如加州大学洛杉矶分校(UCLA)的盖伊·范登布罗克教授所说,“我认为更准确的比喻是,一个盛产石油的国家可以建造一座高大的摩天大楼。在建造摩天大楼的过程中,当然可以帮助国家积累“最先进的技术”。但是所有这一切……并没有导致任何科学进步。“目前人工智能研究议程中‘越大越好’的偏执狂很可能在未来几年对自然环境造成重大破坏。正走在更高生产力和更高生产力的正确轨道上。展望未来,首先总之,每一位人工智能从业者都应该尽快将“缩短周期”作为研究目标,以减少技术发展对环境的影响。最重要的第一步,就是提高对环境的透明度和量化评估。AI模型碳排放,AI研究人员在发布新模型的研究成果时,除了性能和准确率这两个核心指标外,还应该附上模型开发过程中的整体能耗数据。艾伦人工智能研究所提议将浮点计算作为研究人员最常用和最准确的能源效率衡量标准。另一个小组还创建了一个machine-learningcarboncalculatortohelpindustryResearchersusethistoestimatecarbonfootprintofthecurrentmodel(whichcoversmanyfactorssuchashardware,cloudserviceprovider,andgeographicalregion.)按照这些思路,研究人员还需要平衡能源成本和模型训练期间的性能优势。作为无法回避的重要措施,明确量化该指标将促使研究人员解决收益递减问题,并在资源分配方面做出更明智和平衡的决策。希望随着可持续的人工智能实践越来越广泛,技术界在评估人工智能研究时将关注这些效率指标,并将这些指标的重要性提升到传统性能指标(如准确性)的水平,并最终使它们变得更加重要在论文,演示文稿和演示文稿中。和学术成就发挥更重要的作用。当然,其他方法也有望在短期内帮助AI模型减少碳排放:使用更高效的超参数搜索方法、减少训练期间不必要的实验次数、使用更节能的硬件等等。但仅靠这些补救措施还不足以彻底解决问题。人工智能领域需要进行根本性的长期转变。我们需要退后一步,承认简单地构建越来越大的神经网络并不是获得通用智能的正确途径。我们必须推动自己发现更优雅、更有效的方法,从第一原理开始对机器智能进行建模。我们应对气候变化的斗争,甚至我们整个蓝色星球的未来,都可能取决于此。引用AI界的传奇人物、深度学习教父GeoffHinton的话,“一些未来可能掌握它的研究生,因为他们对我所说的一切都深表怀疑……他们可能会完全放弃我的观点的观点并从头开始。再次探索。”人工智能界必须敢于为人工智能建立新的范式,既不需要呈指数级增长的数据集,也不需要可怕的功耗。小样本学习等新兴研究领域可能会成为我们通往光明未来的新路径。作为原始来源智能方面,人脑也会给我们带来重要的启发。我们的大脑与目前的深度学习方法相比非常高效。人脑重量只有几磅,运行功率约为20瓦,足以点亮一个小功率灯泡的昏暗然而,它们也代表了目前宇宙中已知的最强大的智能形态,AI研究人员SivaReddy也不禁感叹,“人脑可以以极低的功耗实现惊人的性能。”问题是,我们怎样才能制造出这样的机器。”
