当前位置: 首页 > 科技观察

机器学习=“新瓶装旧酒”统计?不!

时间:2023-03-18 10:52:45 科技观察

最近社交媒体上广泛流传一个关于深度学习和人工智能的表情包,认为两者只是墙缝有了新的边界,影射机器学习只是重新包装的统计数据,本质上是“旧的”新瓶装酒”。但事实真的如此吗?本文对这种观点提出异议,认为机器学习≠数据统计,深度学习对我们处理复杂的非结构化数据问题的能力做出了重大贡献,人工智能理应得到应有的重视。随着深度学习的炒作开始消退,这个模因最近开始在社交媒体上流传,引发了互联网上的嘲笑。机器学习没什么好兴奋的,它只是对统计技术的补充——这种观点越来越普遍;但问题是这种观点是不正确的。我明白成为一名热心的深度学习布道者并不时髦。即使是在2013年试图让深度学习为所有人所熟知的机器学习专家,现在也只是失望地提出这个术语。他们现在更倾向于削弱现代神经网络的力量,以免人们将他们与仍然认为“导入keras”的人联系在一起。而且他们认为,和后者相比,他们还是有不小的优势的。虽然深度学习不再是流行语,但正如YannLeCun所说,这种矫枉过正的态度已经对AI的进步、未来和实用性产生了不良影响。这一点在有关AI寒冬的讨论中表现得最为明显,其中预测AI将像几十年前一样停滞多年。不过,本文并没有质疑人工智能进入寒冬,也不想说深度学习的进步应该更多地归功于哪个学术团队;相反,它只是想说人工智能应该得到应有的重视;它的发展水平已经超越了超级计算机和更好的数据集;机器学习最近在深度神经网络及相关工作方面也取得了巨大成功,代表了世界上最先进的技术水平。机器学习≠数据统计“融资谈人工智能;找工作谈深度学习;做项目谈逻辑回归。”——Twitter上的每个人都说这篇文章的主题是机器学习不仅仅是重新包装统计数据——这个领域有更大的计算机和更好听的名字。这个概念源自机器学习中非常常见的统计概念和术语,如回归、权重、偏差、模型等。此外,许多模型近似统计函数:分类模型的softmax输出由logits组成,使得训练图像分类器逻辑回归的过程。虽然这种思路在技术上是正确的,但将机器学习视为一个整体只是统计学的一个分支还为时过早。这种比较是没有意义的。统计学是处理数据和解释数据的数学领域。机器学习只不过是一种计算算法(诞生于计算机科学)。在许多情况下,这些算法对于帮助理解数据毫无用处,只能帮助某些类型的难以理解的预测建模。例如,在强化学习中,算法甚至可能不使用现有数据集。此外,在图像处理中,将图像视为以像素为特征的数据集一开始有点牵强。当然,问题的关键不在于这个荣誉应该授予计算科学家还是统计学家;与其他领域一样,今天的成功归功于各种学科,当然包括统计学和数学。然而,为了正确评估机器学习方法的巨大影响和潜力,有必要消除这样一种误解,即现代人工智能的发展只不过是拥有更强大的计算机和更好的数据集的古老统计技术。机器学习不需要高级统计知识。先听我说。刚开始学习机器学习的时候,我有幸选择了一门很好的课程,专门讲深度学习。这也是我本科计算机课程的一部分。我们正在进行的项目之一是在TensorFlow上实施和训练WassersteinGAN。当时我只上了一门必修的入门统计课,但我很快就忘记了大部分内容。不用说,我的统计能力不强。然而,我能够阅读一篇关于最先进的生成机器学习模型的论文并从头开始实施它——在MSCelebs数据集上训练它以生成看起来真实的虚拟图像。在整个课程中,我和我的同学们使用近年来才发明的尖端机器学习技术成功地训练了用于癌组织图像分割、神经机器翻译、基于字符的文本生成和图像翻译的模型。但是,如果你问我或者我的同学如何计算一组数据的方差,或者定义边际概率,我们应该交一张白纸。这似乎与人工智能只是对古代统计技术的重新包装的想法有些矛盾。事实上,在深度学习课程中,机器学习专家可能比计算机科学专业的本科生拥有更强大的统计基础。一般来说,信息论需要对数据和概率有深刻的理解,所以我建议任何想成为数据科学家或机器学习工程师的人最好对统计概念有一个直观的理解。但问题是:如果机器学习只是统计学的一个分支,没有统计学背景的人怎么可能深入理解最前沿的机器学习概念呢?还应该承认,许多机器学习算法没有统计和概率方面的背景。知识要求高于大多数神经网络技术,但这些方法通常也被称为统计机器学习或统计学习,好像是为了将它们与一般的统计类别区分开来。此外,近年来机器学习中大肆宣传的创新大多来自神经网络领域,因此这无关紧要。当然,机器学习并不孤单。在现实世界中,任何想要进行机器学习的人都可能会处理许多类数据问题,因此也需要对统计学科有扎实的理解。这并不是说机器学习从不使用或建立在统计概念之上,这不是一回事。机器学习=表示+评价+优化客观来说,我和同学在算法、计算复杂度、优化策略、微积分、线性代数甚至概率论方面都有很好的基础。我会说这些比高级统计知识与我们正在解决的问题更相关。机器学习是一类计算算法,它反复“学习”某种函数的近似值。华盛顿大学计算科学教授PedroDomingos列出了构成机器学习算法的三个主要构建块:表示、评估和优化。该表示涉及将输入从一个空间转移到另一个更有效的空间,并且更容易解释。从卷积神经网络的角度考虑这个问题。原始像素在区分猫和狗方面毫无用处,因此我们将它们转换为更有效的表示形式(如softmax输出中的logits),它可以被解释和评估。评估其实就是损失函数。您的算法如何有效地将数据转换到另一个更有效的空间?softmax输出与one-hot编码标签(分类)的相似程度如何?你能正确预测下一个单词吗?隐藏分布偏离单位高斯(VAE)有多远?这些问题都告诉你表示函数的表现如何;更重要的是,它们定义了它需要学习做什么。优化是拼图的最后一块。一旦有了评估部分,就可以优化表达式函数以改进评估标准。在神经网络中,这意味着使用随机梯度下降的一些变体根据给定的损失函数更新网络的权重和偏差。你拥有世界上最好的图像分类器(至少是2012年的GeoffreyHinton)。在训练图像分类器时,除了定义合适的损失函数外,学习到的表达函数是否有逻辑输出并不重要。当我们谈论模型空间时,像逻辑回归这样的统计术语确实有一些用处,但在优化问题或数据理解问题中都没有重新定义。附言人工智能这个词相当愚蠢。人工智能问题只是计算机尚不擅长解决的问题之一。在19世纪,机械计算机也被认为是智能的。既然该术语与深度学习密切相关,我们开始说通用人工智能(AGI)比高级模式匹配机制更智能。然而,我们对通用智能还没有一个一致的定义或理解。人工智能所做的唯一一件事就是激发人们对所谓的“奇点”或类似终结者的杀手机器人的恐惧。我希望我们能停止使用这样一个空洞的、耸人听闻的术语来代替真正的技术。深度学习技术深度神经网络的几乎所有内部??工作原理都忽略了深度学习的统计特性。全连接点由权重和偏差组成,但卷积层呢?整流激活层?批量归一化?残留层?辍学?与传统的统计技术不太一致(可能是因为它们根本不是统计技术)。如果您不相信我,请尝试告诉统计学家您的模型过度拟合,并询问他们是否可以将模型的1亿个参数减半。我们甚至不讨论模型的可解释性。对超过1亿个变量进行回归——没问题?深度网络和传统统计模型在规模上存在差异。深度神经网络是巨大的。例如,卷积网络VGG-16有大约1.38亿个参数。您认为您的普通学术导师会如何回应想要对1亿多个变量进行多元回归的学生?想法很荒谬,因为训练VGG-16不是多元回归,而是机器学习问题。新领域在过去的几年里,您可能已经阅读了无数宣扬机器学习可以完成很酷的任务的论文、帖子和文章,所以我不再重复。然而,让我提醒你,深度学习不仅比以前的技术更重要,它还可以帮助我们解决一系列全新的问题。在2012年之前,涉及非结构化和半结构化数据的问题充其量只是一个挑战。只有可训练的CNN和LSTM在这方面取得了巨大飞跃。计算机视觉、自然语言处理、语音转录等领域取得长足进步,人脸识别、自动驾驶、人工智能对话等技术取得长足进步。事实上,大多数机器学习算法最终都会将模型拟合到数据——从这个意义上说,这是一个统计过程。航天飞机只不过是一架有翼飞机,但我们没有看到有人嘲笑NASA在20世纪探索太空,或将其视为飞机的重新包装。与太空探索一样,深度学习的出现并没有解决世界上所有的问题。在很多领域,尤其是“人工智能”领域,我们需要做的事情还有很多。也就是说,它对我们处理复杂的非结构化数据问题的能力做出了重大贡献。机器学习将继续引领世界技术进步和创新的前沿,而不仅仅是新边界的墙缝。原文链接:https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3【本文为栏目组织《机器之心》原创文章,微信公众号《机器》心”(id:almosthuman2014)”]点此阅读更多本作者好文