当前位置: 首页 > 科技观察

用20000篇论文告诉你:过去五年机器学习发生了什么

时间:2023-03-19 02:01:14 科技观察

arXiv.org是一个收集物理、数学、计算机科学和生物学论文预印本的网站。数据显示,截至2014年底,arXiv已收录超过100万篇论文,并且还在以每月8000篇的速度增长。它是目前世界上最大的论文数据库之一。最近,AndrejKarpathy,博士。毕业于斯坦福大学计算机学院,OpenAI资深科学家,基于一份arXiv机器学习论文大数据,分析了近五年的论文数量、开源框架、数学模型和优化算法。详细分析机器学习变化趋势,分析结果发表在个人博客。想必你一定听说过谷歌趋势(GoogleTrends)或百度指数。您可以输入任何关键词,您可以立即看到该词在过去几个月甚至几年的变化趋势。受此启发,我正好手头有一个arXiv论文数据集,里面收录了过去5年机器学习相关的28303篇论文。那么类似于GoogleTrends,我们是不是可以从这些论文中看到一些机器学习领域的科研趋势呢?我对此进行了详细的数据分析,发现这个结果很有意思,所以在这里分享一下。论文总数首先,让我们看一下论文的数量。下图显示了arXiv收集的机器学习论文数量在过去五年中的变化情况。从上图可以看出,2017年3月论文总数激增,可能是因为NIPS、ICML等大型会议的投稿截止日期刚好在3月。而且需要注意的一点是,arXiv的论文数据集虽然全面,但并不能完全代表整个机器学习行业的变化趋势,因为毕竟不是每个人都习惯把论文发到arXiv网站上。不过从上图我们还是可以看到明显的上升趋势,这说明机器学习的热度确实在持续上升。下面我们就以这些论文作为研究资料,看看它们包含了什么样的变化趋势。深度学习框架首先看一下深度学习框架的情况。这里我记录下2017年3月上传的所有论文中提到的机器学习框架(包括参考书目和论文内容):可以看到,2017年3月提交的所有论文中,大约有10%提到了ToTensorFlow。当然,并不是每篇论文都声明了框架的使用,但是如果我们假设论文声明框架的概率分布是固定的,并且这个概率独立于框架本身,那么社区中高达40%的人都在使用TensorFlow(如果把使用TensorFlow作为Keras后端的论文也算进去,比例会更大)。以下是这些框架如何随时间发生变化:如您所见,Theano已经快速增长了一段时间,但最近它的增长速度放缓了。Caffe从2014年左右开始迅速爆发,但最近几个月被强大的TensorFlow赶超。Torch(以及最近的PyTorch)也在上升,虽然速度稍慢,但稳定。我猜几个月后看到这个结果会更有趣,因为根据我的估计,Caffe和Theano的未来会慢慢下降,而TensorFlow的增长速度可能会因为PyTorch的崛起而放缓。卷积神经网络模型(CNN)我们来看看卷积神经网络的情况。从下图我们可以清楚地看到2016年底ResNets(深度残差网络)的激增,这是CNN领域的一个重要里程碑,甚至在2017年3月提交的所有论文中约有9%提到了ResNets.另外这里可以看到,在GoogleInceptionNet之前,其实也有论文提到了inception这个概念。优化算法在优化算法方面,Adam算法可以说是使用最广泛的一种,大约有23%的论文提到了它。这里需要说明的是,Adam算法在实际使用中的采用率可能会更高,因为很多论文不会明确声明优化算法,有的论文甚至不会详细阐述神经网络优化的内容。另外,从图表中可以看出,在2014年12月正式提出Adam优化算法之前,其实已经有一些论文提到了关键词“Adam”,其概率保持在5%左右。我猜可能是因为有很多作者叫亚当。作为研究者,我也好奇地研究了论文中深度学习领域大咖名字的变化,结果如下图所示。需要注意的是,这里只根据关键词统计的方法很粗糙,我也做了一些归一化操作。从图中可以看出,在所有提交的论文中,大约有35%提到了bengio,但实际上这里有两个人:Samy和Yoshua,这个数字是两者相加的结果。还需要指出的是,GeoffHinton在所有新论文中被提及的比例超过30%,这是非常强大的。关键字***部分是关键字。这里我先统计了论文中所有一元关键字和二元关键字的出现次数,并将这些词当前的采用率与一年前进行了比较。我在这里用作基准的论文是过去两年中被引用次数最多的一些优秀论文。以下是一些排名靠前的关键词:以ResNet为例,它的相对流行度是8.17,因为它在2016年3月在所有论文中的采用率为1.044%,而今年3月,它的2019年采用率提高到8.53%,将两个百分比相除得到8.17。从上图可以看出,过去一年最火的机器学习创新包括:ResNets、GAN、Adam、BatchNorm。研究方向的热词包括:风格迁移(styletransfer)、深度强化学习(deepRL)、神经网络翻译、图像生成。***,在模型方面,可以看到全卷积网络(FCN)、LSTMs/GRUs、SiameseNets、Encoderdecodernets等热词。相反,哪些关键词在过去的一年里下降,成为最冷门的关键词?我整理了以下排名:可以看到分形(fractal)和贝叶斯(Bayesian)相关的内容在过去的一年里,热度下滑严重。综上所述,看完所有的分析结果,何不写一篇基于全卷积神经网络、BatchNorm、ResNet和GAN技术,通过Adam算法优化,应用于风格转换的论文呢?