当前位置: 首页 > 科技观察

总结机器学习三个时代的算力规律:大模型的出现改变了什么?

时间:2023-03-20 14:31:11 科技观察

图1:1950年至2022年间118个里程碑机器学习系统的趋势。我们区分三个时代。注意2010年左右斜率的变化,与深度学习的出现相匹配;2015年底出现了一个新的大规模趋势。预测机器学习领域的进展很困难,与行业、政策和社会的参与者有着重要的相关性。十年后计算机视觉会好多少?机器能写出比我们更好的小说吗?我们将能够自动化哪些工作?这些问题很难回答,因为它们取决于许多因素。然而,随着时间的推移,影响所有这些因素的一个因素——计算能力——具有惊人的规律性。现有数据显示,在2010年之前,训练算力的增长速度遵循??摩尔定律,大约每20个月翻一番。自2010年深度学习开始到来后,训练算力的增速明显提升,大约每6个月翻一番。2015年底,随着很多公司开始研发大规模的机器学习模型,对训练算力的要求提升了10到100倍,于是出现了新的趋势。基于以上发现,联合团队在研究COMPUTET??RENDSACROSSTHREEERASOFMACHINELEARNING:thepre-deeplearningera,thedeeplearningeraandthelarge-scaleera时,将机器学习的算力趋势分为三个时代.很好的梳理了当前算力的演进。图丨Milestone大型模型信息概览更具体地说,这项研究有以下三个贡献:1)策划了一个包含100多个里程碑式机器学习系统的数据集,并对训练它们所需的计算能力进行了分析和注释。2)初步将算力趋势划分为三个不同的时代:前深度学习时代、深度学习时代、大规模时代。这项研究提供了每个时期的倍增时间估计值。3)为验证本研究结论而进行的一些替代实验在一系列附录中介绍,讨论数据的替代解释以及与以前工作的差异。此外,本研究中使用的数据集、数据和交互式可视化是公开可用的。1.深度学习的出现本研究从三个不同的时代和三个不同的趋势来解释本研究整理的数据。总之,在深度学习开始之前,有一个成长缓慢的时代。这种趋势在2010年左右加速,此后一直没有放缓。此外,2015-2016年出现了大规模模型的新趋势,以相似的速度增长,但比之前的数量级(OOM)高出一两个数量级。表1主要结果总结。2010年随着深度学习的普及加速了这一趋势,2015年底出现了大规模模型的新趋势。下面,本研究将首先讨论2010-2012年左右向深度学习的过渡时期。然后讨论2015-2016年左右发生的大尺寸模型时代。深度学习出现前后有两种截然不同的趋势机制。在此之前,训练机器学习系统所需的计算量每17到29个月翻一番。随后,整体趋势加速,每4到9个月翻一番。前深度学习时代的趋势大致符合摩尔定律,根据摩尔定律,晶体管密度大约每两年翻一番——通常会降低到计算性能每两年翻一番。深度学习时代何时开始尚不清楚——从前深度学习时代到深度学习时代的过渡没有明显的间断。此外,这项研究将深度学习时代的开始时间定为2010年和2012年,结果变化不大,如表2所示。图2.1952年至2022年间100多个里程碑机器学习系统的训练计算能力趋势.注意2010年左右趋势斜率的变化表21952-2022年ML模型对数线性回归结果2.大型模型的出现2015-2016年左右出现了大型模型的新趋势。这一新趋势始于2015年底的AlphaGo,并一直延续至今。这些大型模型由大公司训练,其庞大的训练预算肯定能打破以往的趋势。此外,常规比例模型的趋势仍然不受干扰。这种趋势在2016年左右持续,斜率相同,每5到6个月翻一番,如表3所示。大规模模型中计算量增加的趋势明显放缓,每9到10个月翻一番。由于本研究对这些模型的数据有限,因此明显的放缓趋势也可能是噪音的结果。这项研究的结果与Amodei&Hernandez等人的研究结果形成鲜明对比。2018年,他发现2012年到2018年之间的倍增周期更快,为3.4个月,而2021年的Lyzhov发现,2018年和2020年之间的倍增周期更长,超过2年。由于数据样本有限,且其分析假设单一趋势,与本研究发现的结果存在巨大差异。然而,本研究分别研究了大尺度模型和常规尺度模型,大尺度模型的趋势是近几年才出现的,以往的分析无法区分这两种不同的趋势。图2.2010年至2022年100多个里程碑机器学习系统的训练计算趋势。留意2016年左右可能出现的大规模模型的新趋势。其余模型的趋势在2016年左右保持不变。表3.2010年至2022年数据的对数线性回归结果。2015年之前的传统比例模型的趋势此后继续不间断。三、结论和方向本研究通过管理100多个具有里程碑意义的机器学习系统的训练计算数据集来调查计算能力趋势,并使用这些数据来分析趋势如何随时间增长。该团队表示希望这项研究的工作能够帮助其他人更好地理解机器学习系统的最新进展是由规模增加驱动的,从而进一步改进对高级机器学习系统发展的预测。此外,培养计算能力的增长趋势凸显了硬件基础设施和工程师的战略重要性。机器学习的前沿研究已经成为获得大量计算能力预算或集群以及利用它们的专业知识的代名词。本研究未涵盖的一个方面是用于训练机器学习模型的另一个关键可量化因素——数据。未来可以尝试研究数据集的大小及其与算力趋势的关系。