当前位置: 首页 > 科技观察

自2010年以来,对ML算力的需求增加了100亿,6个月翻了一番,深度学习成为分水岭

时间:2023-03-23 01:17:43 科技观察

算力、数据、算法是引导现代机器学习(ML)进步的三大基本因素。近年来人工智能技术的发展,不仅依赖于大数据和算法,更是计算能力不断提升的结果。据了解,从2012年到2018年,用于训练大型模型的算力增长了30万倍,大约每三个月半就翻一番。人工神经网络于80年代提出,但由于计算能力的限制,经历了数年的寒冬。但随着技术的发展,这个限制已经被突破,GPU、CPU、AI加速芯片不断推出。随着深度学习的出现,对计算能力的需求呈指数级增长。2018年Bert诞生之时,谷歌、微软、英伟达等巨头纷纷推出自己的大型模型,并将其视为AI领域的下一个制高点。比如谷歌发布了首个万亿级模型SwitchTransformer,英伟达和微软联合发布了拥有5300亿参数的MT-NLG……大模型伴随着大算力。我们不禁要问,自深度学习时代以来,对ML算力的需求增加了多少?未来随着模型的扩展,算力能跟得上吗?近期,来自阿伯丁大学、麻省理工学院等机构的研究人员针对机器学习三要素之间的算力需求进行了研究。他们发现,在2010年之前训练所需的计算能力按照摩尔定律增长,大约每20个月翻一番。自2010年代初深度学习问世以来,训练所需的计算能力迅速增长,大约每6个月翻一番。2015年底,随着大规模ML模型的出现,对训练算力的需求增长了10到100倍,出现了新的趋势。论文地址:https://arxiv.org/pdf/2202.05924.pdfGitHub地址:https://github.com/ML-Progress/Compute-Trends根据以上发现,研究人员划分了ML所需算力的历史分为三个阶段:前深度学习时代;深度学习时代;大规模时代。总体而言,本文详细研究了具有里程碑意义的ML模型随时间变化的计算能力要求。本文的贡献如下:收集了123个具有里程碑意义的ML系统数据集和计算能力的注释;将计算能力趋势初步划分为三个不同的阶段;检查计算能力结果,讨论比较与以前工作的差异。论文作者之一LennartHeim表示:在过去12年(2010-2022)中,ML训练计算能力增长了100亿倍。之前的工作之前做过算力方面的研究。2018年,Amodei和Hernandez介绍了两种评估计算能力的方法。他们基于15个ML系统分析了所需计算能力的趋势。他们发现,从2012年到2018年,ML训练所需的计算能力在3.4个月内翻了一番。2019年,Sastry等人。新增10篇2012年以前的论文补充上述分析。他们发现,从1959年到2012年,大约2年时间,训练所需的计算能力翻了一番。2021年Lyzhov扩充了Amodei和Hernandez的数据集,他认为2018年之后算力增长将停滞。特别是,作者发现2020年计算最密集的模型(GPT-3)只需要比2017年计算最密集的模型(AlphaGoZero)多1.5倍的计算量。下图很好地总结了上述研究:从2012年到2018年,计算能力在大约3.4个月内翻了一番(Amodei,Hernandezresearch);从1959年到2018年,计算能力翻了一番大约用了2年时间(Sastry等人);从2018年到2020年,计算能力翻一番需要2年多的时间(Lyzhov研究)。在一项类似的研究中,塞维利亚等人。2021调查了可训练参数数量的趋势。他们发现,从2000年到2021年,所有应用领域的参数倍增时间从18个月到24个月不等。对于语言模型,他们发现2016年和2018年之间存在不连续性,其中参数的倍增时间加速到4到8个月。此外,在2021年Desislavov等人。研究了计算机视觉和自然语言处理系统所需的推理计算能力。但该研究的数据集比之前的工作更全面,包含的ML模型是之前数据的三倍,并且包括2022年以来的最新数据。趋势解读研究人员根据三个不同的时代和三种不同的趋势解读了他们编制的数据。简单地说,在深度学习起飞之前,有一个缓慢增长的时代。2010年前后,这一趋势加速,此后一直没有放缓。此外,2015-2016年大尺寸车型出现了一个新趋势,即增速相近,但超出了前两个数量级(ordersofmagnitude,OOM)。详情请参见下面的图1和表2。图1:自1952年以来具有里程碑意义的ML系统随时间推移的训练操作(FLOP)。表2:不同阶段的趋势。研究人员首先讨论了2010-2012年左右向深度学习的过渡,然后是2015-2016年左右大规模模型的出现。他们进行了一些替代分析,以从其他角度检查他们的结论。此外,研究人员在附录B中讨论了记录模式的趋势,在附录C中讨论了不同ML领域的趋势。向深度学习的过渡与Amodei&Hernandez(2018)的结果一致,他们在之前和之前发现了两种截然不同的趋势机制深度学习出现后。在深度学习出现之前,训练ML系统所需的计算能力每17到29个月翻一番。深度学习出现后,整体趋势加快,计算能力每4~9个月翻一番。深度学习的发展趋势大致遵循摩尔定律,该定律指出,集成电路上可以容纳的晶体管数量大约每18到24个月翻一番,通常会减少到每两年翻一番。深度学习时代何时开始并不清楚,从前深度学习到深度学习时代的过渡也没有明显的突破。此外,如果深度学习时代的开始日期是2010年或2012年,研究人员的结果几乎没有变化,如下表3所示。图2:1952年至2022年里程碑式ML系统的计算能力趋势。特别注意2010年左右斜率的变化。表3:1952年至2022年ML模型的对数线性回归结果。大规模趋势数据era显示,在2015年到2016年左右,大规模模型出现了新的趋势,如下图3所示。这种趋势从2015年底AlphaGo的出现开始,一直持续到今天。与此同时,这些大型模型已经被科技巨头训练,打破了以往训练预算更大的趋势。请注意,研究人员在识别哪些系统属于这一新的大规模趋势时做出了直觉决定,并证明它们是相对于相邻模型超过某个Z值阈值的模型,如方法学附录A中详述。附录F讨论了大型模型显着不同的地方。图3:2010年至2022年里程碑式ML系统的计算能力趋势。不过,常规规模模型的趋势仍未受到影响。2016年左右的趋势是连续的,斜率变化相同,每5到6个月翻一番。大规模模型算力的增长趋势明显较慢,每9~10个月翻一番。研究人员说,由于这些模型的数据有限,明显的放缓可能是噪音的结果。研究人员的结果与Amodei&Hernandez(2018)形成鲜明对比,他们发现从2012年到2018年计算能力的翻倍用了更短的时间——3.4个月。结果也与Lyzhov(2021)的结果不同,他发现从2018年到2020年,计算能力翻一番需要更长的时间——超过2年。研究人员理解这些不一致之处,因为其他人的分析使用了有限的数据样本并假设了单一趋势,而他们自己的分析分别研究了大规模和正常规模的模型。此外,由于大规模趋势最近才出现,之前的分析无法区分这两种截然不同的趋势。2010年至2022年数据的对数线性回归结果。2015年之前的常规尺度模型的趋势此后保持不变。