2010年之前,训练计算的发展与摩尔定律同步,每两年翻一番;自2010年代初引入深度学习以来,训练计算的速度加快,大约每六个月翻一番;2015年底,出现了一种新趋势。基于这些观察,机器学习的计算历史分为三个时代——前深度学习时代、深度学习时代和大规模时代。本文总结了训练高级机器学习系统的快速增长的计算需求。趋势比较是在123个具有里程碑意义的机器学习系统的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起飞之前经历了一段时间的缓慢进展之后,这一趋势在2010年加速,此后一直没有放缓。此外,2015年和2016年,出现了大尺寸模型的新趋势,其扩张速度比上一个时代快了两个数量级。过渡到深度学习在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。以前,训练机器学习算法所需的计算能力每17到29个月翻一番。之后,整体趋势加速,每4到9个月翻一番。根据摩尔定律,晶体管密度每两年翻一番(Moore,1965),通常被简化为计算性能每两年翻一番——基本符合前深度学习时代的趋势。深度学习时代是从什么时候开始的并不清楚,从前深度学习到深度学习时代的过渡也一直没有明显的突破口。另外,无论深度学习时代是从2010年还是2012年开始,结果几乎没有变化。大规模深度时代的趋势数据显示,大规模模型的新趋势始于2015-2016年。这一新趋势始于2015年底的AlphaGo,并一直持续到现在。大型模型由大公司培训。高培训预算可能是打破以往趋势的原因。另外,常规尺码的人气并未受到影响,2016年前后的趋势是一样的,每5-6个月翻一倍,如下表所示。大型模型的计算量增长速度明显放缓,每9到10个月翻一番。由于这些模型的数据有限,明显的减速可能是噪音的结果。这一发现与Amodei&Hernandez(2018)和Lyzhov(2021)形成对比,Amodei&Hernandez(2018)发现从2012年到2018年的翻倍期为3.4个月,而Lyzhov(2021)则发现从2018年到2020年的翻倍期超过2年。之前的评估无法区分这两种独立的模式,因为大规模趋势是最近才出现的。结论这些发现与早期的研究一致,后者显示了更适度的训练计算量。从1952年到2010年的18个月倍增时间,从2010年到2022年的6个月倍增时间,从2015年底到2022年的大规模新趋势,快了2到3个数量级,倍增时间为10个月。总而言之,前深度学习时代计算进展缓慢,而这一趋势在2010年进入深度学习时代后加速。2015年底,企业开始产出跑赢趋势的大型模型,如AlphaGo,标志着大规模时代的开始。然而,这并不能明确区分大型模型和常规模型形成的模式。硬件基础设施和工程师在计算教学中的作用越来越大,这凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。
