麻省理工学院的一项研究认为,深度学习正在逼近计算能力的极限。 深度学习需要大量的数据和计算能力,而这两者的发展是推动这波人工智能浪潮的重要因素。然而,麻省理工学院最近的一项研究认为,深度学习正在逼近计算能力的极限。 麻省理工学院、麻省理工学院-IBM沃森人工智能实验室、延世大学安德伍德国际学院和巴西利亚大学的研究人员进行的这项研究发现,深度学习的进步“严重依赖”计算能力的增长。他们认为,要让深度学习继续发展,就需要计算效率更高的深度学习模型,这可能来自对现有技术的改变或全新的方法。 论文链接:https://arxiv.org/pdf/2007.05558.pdf 该研究的作者说:“我们发现深度学习的高计算成本不是偶然的,而是从出现的时候就注定了设计的灵活性可以让深度学习对不同的现象进行很好的建模并超越专家模型,但同时也带来了昂贵的计算能力成本。尽管如此,我们发现深度学习模型的实际计算负载比理论极限膨胀得更快,这意味着显着的改进是可能的。” 深度学习是机器学习的一个子领域,其算法受到大脑结构和功能的启发。这些算法——通常称为人工神经网络——由功能(神经元)和将信号传递给其他神经元的网络层组成。信号是网络输入数据的产物,从一层流到另一层并慢慢“调整”网络,调整每个连接的突触强度(权重)。神经网络最终学会通过提取数据集特征和识别交叉样本趋势来执行预测。 研究人员分析了arXiv等来源的1058篇论文,试图了解深度学习性能与计算之间的联系,特别是在图像分类、对象检测、问答、命名实体识别和机器翻译等领域。 他们对计算能力需求进行了两次分析:每次神经网络传递(networkpass)所需的计算能力,或者单次传递所需的浮点运算次数;用于训练模型的硬件负载,也就是硬件的计算能力,这里用处理器数量乘以计算速率和时间来计算。 研究作者表示,在使用几乎相同的计算能力的情况下,除英德机器翻译任务外,所有基准测试都出现了“具有高度统计显着性”的曲线和“强大的解释力”。 特别是在目标检测、命名实体识别和机器翻译方面,硬件负载大幅增加,输出结果改善相对较小,计算能力占ImageNet基准上模型图像分类准确率的43%数据集贡献。 研究人员估计,三年的算法改进相当于计算能力提高10倍。“我们的研究结果表明,在深度学习的几个领域,训练模型的进步依赖于使用的计算能力的大幅增加。另一种可能性是算法改进本身需要补充计算能力。” 在研究过程中,研究人员还推断了模型在不同理论基准上打破记录所需的计算能力、经济成本和环境成本。 按照最乐观的估计,降低ImageNet图像分类误差也需要105倍的计算能力提升。 MachineryHeart去年6月发布了一份报告,估计训练华盛顿大学Grover假新闻检测模型的成本为25,000美元,为期两周。前不久发布的OpenAIGPT-3模型的训练成本飙升至1200万美元,而谷歌BERT的训练成本约为6912美元。 马萨诸塞大学阿默斯特分校的研究人员在去年6月发现,训练和搜索特定模型所需的计算能力将排放626,000磅二氧化碳,大约是美国一辆汽车的平均寿命排放量的五倍. “我们无法预测这些目标的计算要求……硬件、环境和货币成本将高得令人望而却步。以更经济的方式实现目标将需要更高效的硬件和算法或其他改进。” 研究人员指出,在算法层面进行深度学习改进已有先例。例如谷歌TPU、FPGA和ASIC等硬件加速器的出现,通过网络压缩和加速技术降低计算复杂度。 研究人员还引用了神经架构搜索和元学习,它们使用优化来寻找擅长解决某些类型问题的架构,以尝试实现计算高效的方法。 OpenAI的一项研究表明,自2012年以来,训练AI模型以在ImageNet图像分类任务上达到相同性能所需的计算能力每16个月下降2/2。此外,GoogleTransformer架构超越了之前推出的比seq2seq晚三年的SOTA模型seq2seq(也是Google开发的),计算量是后者的1/64。 研究人员总结论文:“深度学习模型所需计算能力的爆炸式增长已经结束了AI寒冬,并为更广泛任务的计算性能设定了新的基准。但深度学习对计算能力的巨大需求限制了其当前形式的性能提升路径,尤其是在这样一个硬件性能放缓的时代。” 因此,研究人员认为,计算能力的限制可能会促使机器学习转向比深度学习计算效率更高的新技术。 reddit热议 此话题及相应论文在reddit等社交网站上引发热议。粉丝有,但质疑声也不少。 有网友表示,虽然关于深度学习算法复杂性的讨论还没有成为当前的主流,但很快就会成为一个焦点话题。海报呼应了这种情绪,并指出过去几年由于计算能力的显着提高,机器学习取得了许多突破。尽管如此,人们可能会很快关注可持续性和算法效率。 与此同时,更多的网友讨论了研究的一些细节。 以下网友对论文中“硬件性能的提升正在放缓”的说法提出质疑:“真的是这样吗?尤其是从USD/TFLOPS和Watts/TFLOPS的角度来看。” 楼主也回复了这位网友的问题,说这好像是作者的说法。论文作者还在文章中写道:“深度学习模型所需算力的爆发式增长结束了AI寒冬,为更广泛任务的计算性能树立了新标杆。”但不幸的是,该论文的作者并未提供参考资料。 有网友毫不客气地说:“虽然这是一个越来越重要的讨论话题,但我没有从这项研究中看到任何'新'见解。事实上,自2012年以来,我们都知道一些持续了10年的老方法-30岁还能工作,主要是算力。” 在他看来,很多深度学习方法面临的计算量限制是显而易见的。可以想象,如果有人将GPT-3的计算量增加100倍,他们就会得到GPT-4。现??在,许多科学研究实验室面临着另一个更大的局限性,由于各种客观因素,无法获得更大的计算能力。 最后,有网友认为,机器学习领域在理论基础上“慢下来”是一件好事和社会影响。
