本月早些时候,OpenAI宣布构建了史上最大的人工智能模型。该模型规模惊人,被命名为“GPT-3”,是一项了不起的技术成就。不过,这也凸显了人工智能领域的一个隐患。现代人工智能模型消耗大量能源,而这些能源需求正以惊人的速度增长。在深度学习时代,生产最先进的人工智能模型所需的计算资源平均每3.4个月翻一番;这意味着能源需求在2012年到2018年间增长了300,000倍。而“GPT-3”只是这个指数增长轨迹上的最新节点。深度学习模型真的越大越好吗?人工智能的碳足迹在今天是有意义的,如果这种行业趋势继续下去,情况很快就会变得更糟。除非我们今天愿意重新评估和改革人工智能研究的方向,否则人工智能领域可能会在未来几年成为我们应对气候变化的对手。GPT-3很好地说明了这种现象。该模型包含多达1750亿个参数。这个数字怎么理解?想想它的前身模型GPT-2,它在去年发布时被认为是最先进的,只有15亿个参数。去年,GPT-2的训练耗时数十GB/天。计算输入的数量已经非常庞大,GPT-3需要的数量可能是GPT-2的数千倍。依赖越来越大的模型来推动人工智能进步的问题在于,构建和部署这些模型需要大量能源,因此会产生碳排放。在2019年一项备受讨论的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度学习的能源和政策考虑)》中,由EmmaStrubell领导的一组研究人员估算了训练单个深度学习模型的能量消耗,这可能高达626,155磅二氧化碳排放量——大约相当于五辆汽车在其整个生命周期内。相比之下,美国人平均每年排放约36,156磅二氧化碳。可以肯定的是,这篇评论是针对特别耗电的模型。如今,训练一个中等大小的机器学习模型的碳足迹应该远低于626,155磅。还值得注意的是,在进行此分析时,GPT-2是当时可供研究的最大模型,研究人员认为这是模型大小的上限。但就在一年之后,GPT-2看起来只有口袋大小,比其继任者小一百倍。那么,为什么机器学习模型会消耗如此多的能量呢?第一个原因是用于训练这些模型的数据集的规模在不断扩大。2018年,BERT模型在30亿词的数据集上训练后,取得了同类最佳的NLP(自然语言处理)性能。XLNet使用320亿个单词的数据集进行训练,性能优于BERT。不久之后,GPT-2在400亿个单词的数据集上进行了训练。与之前所有此类工作相比,GPT-3将使用5000亿个单词的加权数据集进行训练。在训练期间,神经网络对每条输入数据执行一组冗长的数学运算(正向和反向),并以复杂的方式更新其参数。结果,更大的数据集转化为飞速增长的计算和能源需求。人工智能巨大能量消耗的另一个原因是开发模型所需的大量实验和调整。今天的机器学习在很大程度上仍然是一种反复试验的练习。从业者通常会在训练期间构建给定模型的数百个不同版本,在确定最佳设计之前尝试不同的神经架构和超参数。上述2019年研究论文中描述了一个案例研究。研究人员选择了一个中等大小的模型——比GPT-3等引人注目的庞然大物小得多——他们不仅检查了训练最终版本所需的能量,还测量了生成它所需的能量。各种测试的总能耗。在六个月的时间里,他们训练了4,789个不同版本的模型,总共花费了9,998天的GPU时间(超过27年)。考虑到所有这些因素,研究人员估计,建立该模型将产生总共78,000磅的二氧化碳排放量,超过美国成年人平均两年的碳排放量。到目前为止,这个讨论只涉及机器学习模型的训练。但训练只是模型生命周期的起点。模型训练好后,应用于现实世界。部署AI模型并让它们在现实环境中采取行动——这个过程称为推理,比训练更耗能。事实上,Nvidia估计神经网络消耗的能量中有80%到90%发生在推理中,而不是训练中。例如,想想自动驾驶汽车中的人工智能。首先,神经网络必须经过训练才能学会驾驶。训练完成并部署到自动驾驶汽车后,该模型会不断推断以在其环境中导航,并且只要汽车还在使用中,这个过程就会日复一日地持续下去。毋庸置疑,模型的参数越多,持续推理所需的能量就越高。能源使用与碳排放既然提到了人工智能能源消耗与碳排放之间的关系。那么,思考这种关系的最佳方式是什么?根据EPA数据,在美国,一千瓦时的能源消耗平均产生0.954磅的二氧化碳排放量。该平均值反映了美国能源网中不同能源(例如可再生能源、核能、天然气、煤炭)的相对比例和碳足迹的变化。上文提到的2019年研究分析使用全国平均水平,根据各种人工智能模型的能源需求计算碳排放量。这是一个更合理的假设。例如,AmazonWebServices的电力来源组合大致反映了整个美国的电力来源,而且绝大多数AI模型都是在云端训练的。当然,如果使用主要来自可再生能源的电力来训练AI模型,碳足迹会相应降低。例如,谷歌云平台使用的能源组合比AWS可再生能源更多。(上面提到的2019年研究论文把这个数字分别放在了56%和17%。)或者,再举个例子,在太平洋西北地区的硬件上训练一个模型所产生的碳排放量会比其他国家要低,因为丰富该地区的清洁水。在这里,每个云服务提供商都在宣传其在碳抵消方面的投资。总的来说,使用美国整体能源平均值,应该可以粗略准确地估算出AI模型的碳足迹。收益递减通过越来越大的模型追求AI进步的做法突出了模型大小和模型性能之间的关系。以下数据清楚地表明:增加模型的大小最终会导致性能回报的急剧下降。例如,ResNet是2015年发布的一个著名的计算机视觉模型。该模型的改进版本ResNeXt于2017年问世。与ResNet相比,ResNeXt需要多35%的计算资源(以总浮点运算计算)),同时仅将精度提高0.5%。艾伦人工智能研究所2019年的一篇论文提供了详细的数据,记录了人工智能的不同任务、模型和子领域的收益递减问题。与GPT-2相比,最新发布的大规模模型GPT-3表现出明显的收益递减迹象。如果AI界继续朝着目前的研究方向前进,那么它将继续构建越来越大的模型,消耗越来越多的能量来实现越来越小的性能提升。任何成本/收益分析都变得越来越不相称。既然存在收益递减的问题,那么是什么在驱动模型不断地往越做越大的方向发展呢?一个主要原因是当前的AI社区非常关注获得“最佳”性能基准测试结果。建立一个可以在性能基准上创造新的准确性记录的新模型,即使改进只是边际的,也能赢得研究人员的认可和赞扬。正如加州大学洛杉矶分校教授GuyVandenBroeck所说:“我认为对这种情况最好的类比是一些石油资源丰富的国家可以建造一座非常高的摩天大楼。当然,像这样构建Stuff需要大量资金和大量工程工作。建造这座高层建筑时,您确实获得了“最先进”的技术。但是……关于它的进步没有任何科学依据。”主导当前人工智能研究领域的“越大越好”的心态可能会在未来几年对环境造成重大破坏。该领域需要深思熟虑但大胆的变革,以使人工智能技术的发展更具可持续性和生产力。展望未来首先,每个人工智能从业者都应该考虑如何在短期内“速赢”,以减轻他们的研究对碳足迹的影响。重要的第一步是提高这个问题的透明度和衡量标准。当AI研究人员发布新模型的结果时,除了性能和准确性指标外,他们还应该发布模型开发中消耗了多少能量的数据。经过深入透彻的分析,艾伦人工智能研究所的团队建议将“浮点计算”作为研究人员追踪的最常见、最有效的能效指标。另一组研究人员创建了一个机器学习排放计算器,从业者可以使用它来评估他们构建的模型的碳足迹(根据硬件、云服务提供商和地理区域等因素)。遵循这些思路并同时考虑能源成本和性能提升将成为研究人员训练模型时的最佳实践。明确量化这种关系将使研究人员在面临收益递减问题时能够就资源分配做出更明智和平衡的决策。随着可持续AI实践的激增,希望AI社区在评估AI研究时开始考虑这些效率指标,就像我们今天对传统性能指标(如准确性)所做的那样:在会议论文中,在提交、演示、学术中考虑它们角色。还有一些相对成熟的方法可以帮助人工智能技术在不久的将来减少其碳足迹:使用更高效的超参数搜索方法、减少训练过程中不必要的实验次数、使用更节能的硬件等。但是,这些单靠补救措施不足以解决问题。人工智能领域需要更根本、更长远的转变。我们需要退后一步,承认简单地构建越来越大的神经网络并不是获得通用智能的正确途径。我们需要推动自己发现更优雅、更有效的方法来模拟机器智能。我们正在进行的应对气候变化的斗争是一场关乎我们星球未来的战争。在这里引用AI传奇人物和深度学习教父GeoffHinton的话:“未来取决于对‘我说的一切’深表怀疑的研究生……我的观点是全力以赴,重新开始。”人工智能智能界必须开始致力于开创人工智能的新范式,既不需要呈指数级增长的数据集,也不需要巨大的能源消耗。小样本学习等新兴研究领域是有前途的途径。人脑是智力的原始来源,提供了重要的见解。与当今的深度学习方法相比,我们的大脑非常高效。它们只有几磅重,消耗大约20瓦的功率,只够为一个昏暗的灯泡供电。然而,它们代表了已知宇宙中最强大的智能形式。人工智能研究员SivaReddy指出:“人脑可以用很少的能量消耗做出惊人的事情。问题是我们如何建造这样的机器。”
