当前位置: 首页 > 科技观察

元学习热不再!ICLR2022投稿趋势:强化学习排名第一,深度学习排名第二

时间:2023-03-14 22:47:54 科技观察

近日,GitHub上的一个项目ICLR2022-OpenReviewData爬取了ICLR2022的所有投稿论文,共有3407篇。通过分析发现,投稿前50个关键词中,强化学习、深度学习、图神经网络位列前三,强化学习和深度学习的投稿数量远超其他研究领域,比如比较学习和迁移学习的提交数量不到强化学习的四分之一。通过词云可视化,这一趋势也一目了然。对标题关键词的词进行分析后可以看出,论文中所用的词之间的差距没有词组那么大。研究人员更喜欢使用表征(representation)这个词,毕竟会议的名称是InternationalConferenceonLearningRepresentations(ICLR)。作者发布了爬取仓库论文列表的代码,不过应该只能在Windows平台上运行。首先,你需要下载一个msededriver.exe程序,通过模仿浏览器的行为来方便数据爬取。除了MicrosoftEdge之外,还可以使用Chromium的驱动程序。爬取数据大约需要30分钟。当然,如果你不想运行,作者也提供了爬取的数据。这个仓库的灵感来源于ICLR2021-OpenReviewData的数据分析。通过数据对比可以发现,ICLR2021的前两名仍然是深度学习和强化学习,只是位置发生了变化。第三名和第四名也是图神经网络和表示学习。也发生了转换。元学习在ICLR2021的流行度在一年后大幅下降。ICLR2021所有论文中,平均分5.367,大部分论文集中在5-6分。3.8以下,7分以上,都不容易。作者也研究了文章评分与关键词的关系。可以发现,评论者的平均评分与关键词出现频率之间存在很大的关系。为了最大限度地提高获得更高分数的机会,您可以使用诸如深度生成模型或规范化流之类的关键字。绝大多数计算机科学会议都使用匿名同行评审,而OpenReview提供了一个旨在促进同行评审过程开放性的平台。论文(元)评论、反驳和最终决定都将向公众公开。当然,OpenReview的这种方式也会鼓励作者更加谨慎地提交自己的论文,以防止被公开处决。除了上述简单的分析,OpenReview还可以作为更大规模的语料库提供给研究人员进行研究。除了GoogleScholar和arXiv,研究人员还从OpenReview平台收集了5,527份提交和16,853条评论。未经同行评审的org版本收集这些提交的引文数据。https://arxiv.org/abs/2103.05885ICLR从2013年开始使用OpenReview平台进行双盲审稿。每篇论文分配审稿后,通常由三名审稿人独立评估一篇论文。反驳后,审稿人可以访问作者的回复和其他同行的评论,并相应地修改他们的评论。然后,项目主席为每篇论文撰写元评论,并根据三份匿名评论做出最终接受/拒绝决定。每条正式审稿主要包括审稿分数(1~10之间的整数)、审稿人置信度(1~5之间的整数)和详细的审稿意见。官方评论和元评论都在OpenReview平台上向公众开放,他们的评论也可以在OpenReview上发表。论文爬取了2017年以来的审稿数据,因为2017年之前提交的材料太少了。虽然采用了双盲审稿的方式,但被拒作者的身份将在论文最终决定后公布。由于提交量的大幅增加,ICLR2020聘请了更多的评审志愿者。有人抱怨审稿人的质量严重下降(47%的审稿未在相关领域发表)。在NIPS、CVPR和AAAI等其他AI会议中也观察到了类似的情况。许多作者抱怨说他们的评论没有得到很好的接受,因为指定的非专家审稿人缺乏足够的技术背景来理解他们的主要贡献。但是,没有量化分析这些非专家对审查过程的影响。对于ICLR2017-2019,审稿人给出1到10之间的审稿分数(整数),并被要求选择1到5之间的置信度(整数)。对于ICLR2020,审稿人给出的评分为{1,3,6,8}并且应该选择1到4之间的经验评估分数(类似于置信度分数)。对于2018-2020,置信水平为1和2的重新评估分数可能高于置信水平为4和5的审查分数。ICLR2017的趋势尚不清楚,因为它包含的样本太少,没有统计意义。2017-2019年,最低置信度审核的平均评分为5.675,最高置信度审核的平均评分为4.954。2020年,最低和最高置信度审查的数字分别为4.726和3.678。调查结果表明,低信心的审稿人(例如1级和2级)往往更宽容,因为他们可能对自己的决定没有信心,而高信心的审稿人(例如4级和5级)往往更宽容。强硬和严格,因为他们可能对已发现的弱点有信心。下图中的每个点代表一组具有一定置信度的评论,点的大小表示该组评论的相对数量,两点之间的距离代表两组评论分数的差异。根据每条评论的情感分析结果与评论分数的相关性分析,研究人员将具有相同方面情感组合的评论分组并计算每组的平均评论分数,并没有考虑收到少于3条评论的组,因为他们样本太小,没有统计学意义。可视化结果表明,从宏观角度来看,较高的评论分数通常会带来更多积极方面,这也是意料之中的。还观察到,大多数评分在6分以上的评论在新颖性、动机和性能方面没有负面评价,但相关工作和实验可能存在一些缺陷。总体上对论文持积极态度的审稿人可能会建议改进相关工作和实验,以使论文更加完整。演讲质量和实验似乎比其他人更常被提及,表达的积极情绪分布更均匀。这意味着声明在决策中没有发挥重要作用。同样有趣的是,所有评论都不是正面或负面的。一篇论文不可能在所有方面都是完美的或毫无价值的。审稿人也可能对论文更严格,对差论文更宽容。深入挖掘数据会产生一些有趣的发现,这些发现有助于了解公众参与的双盲同行评审过程的有效性,并可能有助于撰写论文、审阅论文并决定是否接受它们。人工智能会议是一个接受广泛主题的主题领域。作者经常被要求选择与他们提交的内容最相关的领域。区域主席可以就研究领域的提交做出决定。不同的地区可能会收到不同数量的提交,并且可能有不同的接受率。程序主席有时会在会议开始时宣布每个地区的提交数量和接受率,这可能会以某种方式表明每个地区的受欢迎程度。然而,按区域分类是粗略的,需要提供更具体信息的更细粒度的分类。由于OpenReview提供了更详细的提交信息,因此可以利用每个提交的标题、摘要和关键字来提供更细粒度的聚类结果,并收集每个提交集群的接受率统计信息。从接收主题可以观察到,大体上是深度学习研究的一般结构和研究主题之间的相关性。例如,左侧部分的提交属于强化学习领域。另一个独立的研究领域是图神经网络(GraphNeuralNetworks,GNNs),作为一个很有前途的领域,它在短短2-3年的时间里变得非常流行,它通过专注于图结构来区别于其他领域。AdversarialMachineLearning也是一个新的独立研究领域。下一个单独的主题是生成对抗网络(GAN)。但是GAN并不是完全独立的,可以发现许多关于NLP和CV的提交都与GAN混合在一起。还观察到迁移学习非常接近GAN,因为一些研究已经将迁移学习应用于GAN。右侧部分的大多数提交都是与应用相关的(例如,视觉、音频、NLP、生物学、化学和机器人技术),它们混合了DNN优化技术,因为针对特定应用领域提出了许多优化以改进DNN。强化学习、GNNs、GANs、NLP和计算机视觉吸引了超过50%的投稿,这些都是当今深度学习研究的热门话题。不同学科的录取率也存在显着差异。黑盒对抗攻击(Black-BoxAdversarialAttacks)提交的集群接受率最高(53.33%),属于对抗机器学习领域。提交的few-shotlearning主题接受率最低(10.53%),属于强化学习领域。图神经网络的接受率为26.67%,BERT的接受率为27.27%,GANs的接受率为20.18%,强化学习的接受率为31.58%。