当前位置: 首页 > 科技观察

别忽视深度学习的问题,GaryMarcus不得不泼冷水

时间:2023-03-15 18:56:01 科技观察

纽约大学心理学教授GaryMarcus曾是Uber人工智能实验室的负责人。他创立的人工智能创业公司GeometricIntelligence在2016年12月被优步收购,我加入优步帮助他们建立人工智能实验室。加里·马库斯还呼吁研究人员“借鉴认知科学领域的知识”,构建更多类似于人类的认知概念。然而,加里马库斯并不是一个令人鼓舞的“积极的人”。事实上,他一再给人工智能和深度学习泼冷水,告诫大家我们的进步是多么的渺小,人们是多么的乐观。圣诞元旦假期刚过,GaryMarcus在arXiv上上传了一篇论文,对深度学习的现状做了全面而不乐观的分析。他在论文中指出了当前火热的深度学习存在的十大问题。我们将这十个问题简单介绍如下:1.人类学渴望海量数据。该表格可以用于解决未来的各种问题;您还可以从几个样本中快速了解隐藏的规律。看到北京哈巴狗和柴犬,看到德国牧羊犬就知道它也是狗。然而,深度学习不是这样的。“更多的数据=更好的模型性能”是深度学习的基本规律。它没有能力学习字面上给出的规律。对于企业来说,深度学习时代更容易建立更大数据量的IT巨头马太效应,二线竞争者开始发愁。学者们对此并不十分看好。GeoffreyHinton在最近的一篇capsulepaper中也提到了“卷积网络在新类别上泛化能力的难点......标记训练集的大小呈指数增长”。对于可用数据有限的情况,深度学习往往不是最佳选择。二是所学知识不深,难以迁移。我们都知道,深度学习的“深”是指网络层数多,隐藏层数多。在深度学习中无处可寻。即使是强化学习模型,需要与环境交互,更应该认识环境的规律,一旦环境发生变化,它们仍然需要重新适应——它们并不真正理解什么是“墙”,什么是“墙”频道”是。什么。除了DeepMind玩Atari游戏的强化学习模型外,许多其他各自研究领域的研究人员也观察到,稍微改变输入数据就会导致输出结果的巨大差异。深度学习模型学习到的数据模式似乎比我们想象的要弱得多。第三,难以处理等级结构。例如,对于大多数深度学习语言模型来说,一个句子就是一串单词。然而,在语言学家看来,句子具有内在的层次结构;英语长句中的定语从句是句子结构基本完整的典型例子,但从层次结构上看,它只是对某个词或词组的补充描述。深度学习对各种层级结构无能为力。人类可以把“煮饭”这个目标分解成“淘米、加水、设置火力时间”几个动作来一一完成。游戏AI也需要在个体操作和全局策略之间找到平衡和协调。但是,深度学习不能提供层次化的理解、总结、控制等,它学习到的特征是“扁平化”的,或者说是非层次化的,每个特征只是列表中的一项。因此,深度学习系统本身并不具备表示层次结构的能力。尝试使用一些技术来提取Word2Vec和其他模型的层次结构,可以立即脱颖而出。但是,考虑到大部分任务、大部分数据、大部分电气系统都具有明显的层次结构(这甚至是人类构建实际系统的基本思想),深度学习在它们上面的表现还是很值得怀疑的。第四,对于开放式推理题,我无法帮助人类在看完书和电影后,总是对其中的转折点和故事发展提出不同的看法,对作者的暗示做出各种猜测。然而,即使是在SQuAD问答数据集上表现最好的模型,也只能在给定的文本中找到最相关的单词和句子,然后将它们组合起来,根本没有创新和理解提示的能力。即使有研究人员进行了尝试,目前还没有任何深度学习系统能够比得上人类基于真实知识进行开放式推理的能力。第五,深度学习仍然不够透明。深度学习的“黑匣子”神经网络问题在过去几年一直是人们广泛关注和讨论的焦点。如今,深度学习系统往往拥有数百万甚至数十亿个参数,开发人员很难以可解释的方式(“last_character_typed”)标记一个复杂的神经网络(例如,网络中第j层第i个节点的活动值模块k)。虽然通过可视化工具,我们可以看到复杂网络中单个节点的贡献,但更多时候研究者会发现神经网络仍然是一个黑匣子般的谜团。这会对我们造成什么样的影响,目前还不得而知。如果系统足够健壮,足够适应,那么可解释性就不是问题。但是如果需要用在一些更大的系统上,那么它的可调试性就变得尤为重要。深度学习的透明性尚未解决,对于以金融或医疗诊断为代表的应用领域来说,将是一个无法回避的坑。毕竟,人们需要对机器的决策做出可解释的回答。正如CatherineO’Neill(2016)指出的那样,深度学习的不透明性会导致偏见问题。第六,深度学习远未与先验知识紧密结合。深度学习的一个重要方向在于解释学,它将它与其他知识区分开来。典型的深度学习方法往往是找到一个数据集,通过调参等各种方法学习输入输出之间的关系,掌握解决问题的方法。有少数研究故意弱化先验知识,如以LeCun为代表的神经网络连接约束研究。以Lerer等人的研究为例,该团队试图让系统学习从塔上掉落的物体的物理特性。在这项研究中,除了卷积隐含内容外,团队没有添加物理先验知识。我即将发表的论文中也提到了这一点,即深度学习研究人员似乎对先验知识有偏见,即使它是众所周知的。此外,将先验知识纳入深度学习系统并非易事。主要原因是知识表示主要描述的不是抽象的量化特征,而是特征之间的关系;机器学习过于强调系统的独立性而排斥一般知识。以Kaggle机器学习竞赛平台为例,给定的数据集和提出的问题都给出了。虽然在竞赛范式的推动下,研究人员取得了长足的进步,但与现实世界不同,亟待解决。问题还是有很大的差距。生活不是Kaggle比赛。真实世界的数据并没有为你干净打包,而且问题比竞争对手遇到的要复杂得多。在以语音识别为代表的大量标签的问题上,深度学习可能会有很好的表现。但是开放式问题呢?几乎没有人知道该怎么办。如何修理链条卡在绳子上的自行车?我应该主修数学还是神经科学?没有数据集可以告诉我如何修复它。离分类越远,越接近常识的问题,机器学习越难解决。据我所知,还没有人试图解决这样的问题。七、深度学习无法区分因果关系和相关关系如果因??果关系和相关关系确实不同,那么区分两者将是深度学习面临的一个严重问题。简而言之,深度学习学习输入和输出特征之间的复杂关系,而不是因果表示。深度学习系统可以将人类视为一个整体,学习身高与词汇量的相关性,但无法理解生长与发育的关系。换句话说,随着年龄的增长,孩子会学更多的单词,但并不意味着学更多的单词会让孩子长大。因果关系是AI的核心问题,但也许因为深度学习的目的不是解决这些问题,深度学习领域很少涉足这项研究。八、深度学习需要环境的稳定性,这可能会出问题深度学习目前在高度稳定的环境下效果最好,比如围棋,因为它的规则是不变的,一旦出现政治和经济问题(这些问题在不断变化),结果并不令人满意。在某种程度上,深度学习可以应用于股票预测等任务,但很可能最终会得到类似于谷歌流感趋势的结果。虽然最初的疫情预测表现不错,但未能提前预测到2013年。每年的流感季节。九、深度学习得到的结果只是近似值,不能完全相信。从前面的问题可以看出,深度学习系统在某些给定领域的大多数情况下都能很好地工作,但它们很容易被愚弄。越来越多的论文表明深度学习是脆弱的,比如上面提到的RobinJia和PercyLiang对语言的研究,以及计算机视觉领域的大型案例——将黄黑条纹误认为是校车,Mistastakinga停车标志,上面贴着一个装满杂货的冰箱。最近还有一些现实世界的例子,例如轻微污损的停车标志被深度学习系统误认为是限速标志,以及3D打印的乌龟被误认为是步枪。近日,有新闻报道称,英国警察系统无法正确区分裸体和沙丘。深度学习系统的欺骗性可能是Szegedy等人在2013年的一篇论文中首次提出的。四年后,经过如此多的研究,研究人员未能找到任何强有力的性解决方案。十、深度学习的发展仍然难以工程化上述所有问题衍生出的另一个事实是深度学习很难做鲁棒工程。在谷歌团队发表的论文MachineLearning:TheHigh-InterestCreditCardofTechnicalDebt中,他们的标题将机器学习描述为“一张高息技术债信用卡”,这表明该系统是可以工作的,但它是当添加新数据并且数据与之前的训练数据不同时,很难保证它会起作用。在ICML2015上,LeonBottou将机器学习比作飞机发动机的开发,他说飞机设计依赖于构建能够保证可靠性能的复杂系统,但机器学习系统缺乏类似的保证。正如谷歌的PeterNorvig在2016年指出的那样,与传统项目相比,机器学习仍然缺乏增量性、透明性和可调试性。黏糊糊的,这是一个挑战。专注于深度强化学习的Henderson和他的同事最近也提出了这一点,指出了该领域在鲁棒性和可重复性方面的一些严重问题。尽管我们在开发机器学习系统方面取得了一些进展,但还有很长的路要走。诚然,深度学习已经出色地解决了计算机视觉、强化学习和NLP领域的诸多难题。然而,在我们热衷于深度学习的同时,我们也应该看到,深度学习并不能解决所有问题。高超的特征提取能力和非线性抽象能力远远不足以构成通用人工智能的基础设施。我们认为深度学习的研究当然要继续下去,它的火爆给整个机器学习和人工智能界带来了很多关注和人才;技术与认知方法可以齐头并进,共同构建人类理想的“人工智能”。