图灵奖获得者YannLeCun,作为AI界的三巨头之一,他发表的论文自然被奉为研究的“圣经”。然而,最近却突然跳出一个人,炮轰LeCun“炒饭”:“无非就是改变我的核心观点。”难道……没错,这个人就是“LSTM之父”JürgenSchmidhuber。Schmidhuber表示,LeCun的论文没有提到1990-2015年间的重要成果。文章中提到的“主要原始成果”包括“学习子目标、可预测的抽象表示、多个时间尺度”等。概念,他们已经发布了。原推文中使用的rehash这个词,是在没有创新的情况下,用另一种方式表达原意,妥妥的“洗白”。同时,他还发了一篇长文,详细罗列了证据。当然,这只能算是施米德胡贝尔的片面说法。不过,网友们显然并不买账。“你曾经是AI界的重量级人物,现在却扬言大家的学术成果都在抄袭你的思想。”“神经网络、transformer、LSTMS是你发明的,卫生纸、面包片也是你家人发明的。”那么,这到底是怎么回事呢?让我们先梳理一下事情的来龙去脉。2022年6月14日,一份名为ScienceTabloidbySchmidhuber的“科学小报”(就是你们的《麻省理工科技评论》)刊登了一篇LeCun的报道,其中解释了他对AGI的新概念。6月27日,YannLeCun发表了他多年积累的论文《APathTowardsAutonomousMachineIntelligence》,称其为“一部指明未来人工智能发展方向的著作”。这篇论文系统地描述了“机器如何像动物和人类一样学习”的问题。它长达60多页。感兴趣的朋友可以去看看。LeCun表示,这篇文章不仅是他对未来5-10年AI发展大方向的思考,也是他未来几年打算研究的内容,希望能对更多AI人有所启发领域一起学习。可能是因为LeCun的论文影响力越来越大,Schmidhuber最终决定在7月7日发表一篇自己写的长文,愤怒地指责LeCun抄袭了他的想法。Schmidhuber说,在文章发表之前,《科学小报》发来了一份报告草稿(目前还处于保密期),希望他能发表评论。于是,Schmidhuber滔滔不绝地写了一篇“控诉”,称LeCun的文章基本上是抄袭他之前的作品,他还没有引用。毫不奇怪,他的评论持平。LeCun只是背诵我的作品而没有引用它!Schmidhuber在这篇长文中表示,希望读者自己研究原始论文并判断这些评论的科学内容,也希望他们的工作得到认可和认可。LeCun的论文一开始就说,这篇论文中描述的许多想法(几乎总是)由许多作者在不同的上下文中以不同的形式呈现,而Schmidhuber反驳说,不幸的是,这篇论文的大部分内容与我们1990年以来的论文是一致的“dejavu”,并且没有任何参考的迹象。先来看看他这次炮轰LeCun的证据(部分)。证据1:LeCun:当今的人工智能研究必须解决三大挑战:(1)机器如何主要通过观察来学习代表世界、学习预测和学习行动(2)机器如何兼容基于梯度的学习(3)机器如何以分层的方式、在多个抽象层次和多个时间尺度上学习表示感知(3a)和行动计划(3b)Schmidhuber:这些问题在1990、1991、1997和2015年得到了详细讨论在一系列论文中。1990年,发表了关于用于长期规划和强化学习(RL)以及通过人工好奇心进行探索的基于梯度的人工神经网络(NN)的第一篇论文。它描述了两个递归神经网络(RNN,最强大的NNN)的组合,称为控制器和世界模型。其中,世界模型学习预测控制器动作的后果,控制器可以使用世界模型提前规划几个时间步长,选择最大化预测奖励的动作序列。关于基于神经网络的分层感知(3a)的答案,我1991年的论文“第一台深度学习机——神经序列分块器”至少部分地解决了这个问题。它在递归神经网络(RNN)的深层层次结构中使用无监督学习和预测编码,以在多个抽象级别和多个时间尺度(正是LeCun所写)找到“长数据序列的内部表示”。”。这个问题至少在1990年被我关于分层强化学习(HRL)的论文部分解决了,该论文涉及基于神经网络的分层行动计划(3b)的答案。证据2:LeCun:由于成本模块的两个子模块是可微的,能量梯度可以通过其他模块反向传播,特别是世界模块、性能模块和感知模块。Schmidhuber:这正是我在1990年发表的内容,引用了1980年的“使用前馈神经网络进行系统识别”论文。2000年,我的前博士后MarcusHutter甚至发表了一种理论上最优的、通用的、不可微分的学习世界模型和控制器的方法.(另见称为哥德尔机的数学最优自参照AGI)证据3:LeCun:短期记忆模块架构可能类似于键值记忆网络。Schmidhuber:但是,他没有提到我在1991年发表了第一个这样的“键值内存网络”,当时我描述了序列处理“快速权重控制器”或快速权重程序员(FWP)。FWP有一个慢速神经网络,它通过反向传播学习快速修改另一个神经网络的快速权重。证据4:LeCun:本文的主要原创贡献是:(I)一个整体的认知架构,其中所有模块都是可区分的,其中许多模块是可训练的。(II)H-JEPA:ANon-GenerativeHierarchicalArchitectureforPredictingtheWorld一种在多个抽象层次和多个时间尺度上学习表征的模型。(III)一系列非对比自监督学习范式,可同时产生信息丰富且可预测的表征。(IV)使用H-JEPA作为不确定性下分层规划的预测世界模型的基础。对此,Schmidhuber也根据LeCun列出的四个模块一一校对,给出了与他论文中重叠的点。在文章的最后,他表示这篇文章的重点不是攻击已发表的论文或作者所反映的想法,关键是这些想法并不像LeCun论文中写的那样“原创”。他说,其中很多观点都是在我和同事的努力下提出来的。他现在LeCun提出的“主要原创贡献”,其实和我这几十年的研究贡献是分不开的。我希望读者能够判断我自己的评论的有效性。从LSTM之父到……其实,这位大叔声称别人抄袭他的结果已经不是第一次了。早在去年9月,他就在自己的博客上发文称,被引用次数最多的神经网络论文的结果是基于我实验室所做的工作:“更不用说LSTM,今天还有其他一些著名的开创性工作,比如像ResNet,比如AlexNet,GAN,Transformer,都和我的工作有关,我做了一些工作的第一版,但是现在这些人不讲武功,引用也不规范,这些成果有当前的归属感存在问题。“虽然大叔很生气,但不得不说,JürgenSchmidhuber这么多年心里还是有些忐忑的。作为人工智能领域的资深人物,他取得了很多开创性的成就,但是他的名气和认可度获得的成果似乎总是远低于预期,尤其是在2018年,当深度学习三巨头:YoshuaBengio、GeoffreyHinton、YannLeCun获得图灵奖时,不少网友质疑:为什么图灵奖没有颁给JürgenSchmidhuber,LSTM之父?同时也是深度学习领域的大师。时间回到2015年,当时Be??ngio、Hinton和LeCun联合在Nature上发表了一篇综述,标题直接取名为《Deep Learning》。文章起始于传统的机器学习技术,总结了现代机器学习的主要架构和方法,描述了训练多层网络架构的反向传播算法,以及卷积神经网络的诞生,distributedrepresentationandlanguageprocessing,循环神经网络及其应用等。不到一个月后,Schmidhuber在他的博客上发表了批评。Schmidhuber说这篇文章让他很不爽,因为全文多次引用了三位作者自己的研究成果,却只字未提其他先驱对深度学习的早期贡献。他认为,获得图灵奖的“深度学习三巨头”已经变成了贪婪他人、自私自利的鸡贼、利用自己在世界上的地位相互吹捧、打压长辈的小学生。2016年,JürgenSchmidhuber在NIPS会议的Tutorial上与“GAN之父”IanGoodfellow对峙。当时,当Goodfellow正在谈论GAN与其他模型的对比时,Schmidhuber站起来打断了他。Schmidhuber的问题很长,大概讲了两分钟。主要内容是强调他在1992年就已经提出了PM,然后讲了很多它的原理,实现过程等等,最后一张图很穷:你说说你的GAN和我的PM差不多?Goodfellow也不示弱:关于你之前提到的问题,我们已经多次通过邮件与你沟通,我也已经公开回复了你,不想在这个场合浪费听众的耐心。等等,等等……也许Schmidhuber的“蜜汁操作”可以用LeCun的一封邮件来解释:“Jürgen太执着于每个人的认可,总是说他没有得到很多他应得的。几乎是习惯性的,他总是在其他人的演讲结束时站起来,为他刚刚介绍的内容归功,这通常是没有意义的。”
