Facebook、麻省理工等发表研究手稿:解释深度学习实际工作原理的理论目前,该书的手稿已公开。根据介绍,本书在基础层面上提供了从第一性原理理解深度神经网络(DNN)的理论框架。对于AI从业者,这种理解可以大大减少训练这些DNN所需的试错次数。例如,它可以揭示任何给定模型的最佳超参数,而无需经过当今所需的时间和计算密集型实验。Facebook人工智能研究科学家ShoYaida表示,DNN是现代人工智能研究的关键要素之一。但对于包括大多数AI研究人员在内的那些人来说,DNN太复杂了,无法从基本原理中理解。这个问题的存在意味着,尽管该行业通过实验和反复试验在AI方面取得了巨大进步,但研究人员仍然对DNN的许多关键特性一无所知,这些特性使它们非常有用。他相信,如果研究人员更好地了解这些关键属性,可能会带来一些显着的进步,并开发出更强大的人工智能模型。Yaida将AI比作工业革命初期的蒸汽机。虽然蒸汽机永远改变了制造业,但直到下个世纪热力学定律和统计力学原理得到发展,科学家们才能够在理论层面上充分解释它的工作原理和原因。虽然这种不了解并没有阻止人们改进蒸汽机,但热机原理的发现大大加快了改进的步伐。Yaida指出,人工智能领域目前正处于类似的时刻。DNN被认为是黑匣子,太复杂以至于无法从第一性原理来理解。因此,人工智能模型通过反复试验进行微调,类似于人们改进蒸汽机的方式。不过,亚伊达也表示,试错未必是坏事,可以结合多年的经验,巧妙地进行。但试错法也只是描述DNN及其实际工作方式的统一理论语言的替代品。该公告指出,这本书只是一个更大项目的第一步,该项目旨在重新构想AI科学,该项目借鉴了基本原理,同时侧重于描述现实模型的实际运作方式。如果成功,这种深度学习的一般理论可能会成为更强大的人工智能模型的基础,甚至可能引导我们建立一个研究智能一般方面的框架。值得注意的是,虽然书中描述的框架可以扩展到现代AI社区使用的真实DNN。但本书本身的主要重点是最简单的深度学习模型(深度多层感知器)。有了这个新的有效理论,我们希望人工智能理论家能够推进对神经网络更深入、更全面的理解。还有很多需要计算,但这项工作有望使该领域更接近于理解这些模型的哪些特定属性可以让它们智能地执行。我们也希望本书能帮助AI社区减少有时会限制当前进展的试错循环。我们希望帮助从业者快速设计出更好的模型——更高效、性能更好、训练速度更快。特别是,那些设计DNN的人将能够在没有任何训练的情况下选择最好的超参数,并选择最好的算法和模型架构以获得最好的结果。可以在官方博客上找到更多详细信息。本文转自OSCHINA文章标题:Facebook、MIT等发表研究手稿:Atheoryexplaininghowdeeplearningactuallyworks
