Roseblatt在1950年代提出感知器,多层神经网络的BP算法用了将近30年才得以普及。为什么要花这么长时间,实际上这只是链式法则在微积分中的简单应用?Bengio在Quora上回复道:许多看似显而易见的想法只有在事后才变得显而易见。在控制论中,链逆很早就被应用于求解多层非线性系统。但在80年代初期,神经网络的输出是离散的,因此无法通过基于梯度的方法进行优化。这时候,Rumelhart和Hinton想到只要把输出做成平滑的(sigmoid),就可以用链式法则来训练多层神经网络。所以这不仅仅是链式法则的问题,而是要跳出离散输出的框框,这种概念上的转变并不容易。
