DL的难度就看你怎么看。数学系应该往理论方向看。DL使用线性和非线性函数构造函数,可以用随机梯度下降进行训练,具有非常好的泛化能力。在我看来,这样的事情没有原则是完全无法想象的。但是DL很难,难到大家都不知道怎么入门,也不知道用什么数学工具,于是就有了各种理论文章,比如凝聚态物理(spin-glass),量子物理(重归一化群),ODE(动态系统),各种优化理论(例子太多了),各种复杂度理论,但是没看到真正的提取精华。数学中有那么多理论,但没有一个可以转移到深度学习并完美契合,更不用说有效的预测了。这足以说明问题的复杂性,DL并没有那么简单。要深入DL,各种基础知识必不可少。但是基础知识也不是什么可以炫耀的东西,因为学了很多,也不一定有用。例如,VCDimension或RademacherComplexity对DL有用吗?它们本身很美,但是假设太强得到的结论与现实相去甚远,或者假设太宽泛得到的结论太弱,都不在DL的工作范围内。所以做理论的要一个一个学,想一想,试一试,然后放下,下一个。解决问题才是最终目的,不是学的比别人多,然后还坐着吹牛牛。会玩十八般武功,也敌不过一招制敌的高手。至于如何找到这一招,无论是从理论分析还是从实验上,都是同等有价值的,都是平等的,不存在谁轻视谁的问题。轻视就是有一个不合理的预设,而忽视另一种思维方式的作用,不利于解决问题。在学习数学的时候,我感觉自己走进了一座令人眼花缭乱的艺术博物馆,在整洁的环境中欣赏着各种精美绝伦的美。相比之下,DL就像是锅炉房里一堆乱七八糟的机器,工程师们正在四处奔波,让它运转起来,凌乱但有效。大多数人都能沿着前人铺就的锦绣之路添砖加瓦,但真正厉害的还是那些不顾一切乱七八糟地去锅炉房拆机,化腐朽为神奇,找到最重要原理的人。创造比修复更难。与其抱怨DL没有深奥的数学框架,何不亲自尝试一下,看看能不能做出一些有趣的东西。既然放着这么大的金矿,大家也该努力去开采了。小波很漂亮,但问题是它的基函数是固定形式的,不能适应具体的问题,需要数学家花一辈子的时间才能弄明白。相比之下,深度模型几天就可以训练好,而且对于特定的问题(比如图像分类)效果更好。你会选哪一个?所以现在需要转变思路,一个一个研究模型效率太低了。现在,制作自动建模数据的模型在战略上是否更有趣?我和我的一个同学聊天,他现在是统计系的终身教授,列举了几位非常优秀的数学家。问我AI比他们好吗?我没有给出肯定的回答。不知道人类在看蚂蚁的时候会不会思考普通蚂蚁和聪明蚂蚁的区别?我在这里没有贬低数学家的意思,因为人类都是一样的,而我只是一只微不足道的蚂蚁——比起一个像小城市一样耗能,而且每隔几个月更新一次的集群,人脑只有几十瓦,神经元慢到毫秒级,传输速度被打败只是时间问题。而现在人脑处理大部分任务的能力甚至远超集群,可见人工智能的巨大潜力。我有时觉得,看到几颗星星,我们就觉得是一个很大的突破。其实我们还在漫漫长夜里摸索着,太阳还没有出来。另外说一下门槛低的问题。数百年前,微积分问世后,一大类问题可以用统一的方法来解决,降低了技术进步的门槛,使得各种本来就优于普通人的技术,顿时有了很大的进步在相关领域。这个历史过程和我们现在看到的深度学习的过程如出一辙。开源,人人都用,整个人类进步都很快。这个时候单打独斗是不行的,人是技术进步的原动力。面对时代的洪流,思考如何跟风可能比嘲讽别人跟风更有建设性。
