当前位置: 首页 > 科技观察

不!机器学习不仅仅是统计数据的美化!_0

时间:2023-03-19 01:19:07 科技观察

大数据文摘出品编译:JIN、Hope、蒋宝尚题这部在社交媒体上疯传的恶搞漫画获得了大量转发,似乎暗示机器学习的炒作开始退潮。然而,机器学习真的只是美化统计数据吗?哈佛大学数据科学硕士、机器学习从业者乔·戴维森认为,远不止于此。他从统计学和机器学习入手,比较了两者的区别,希望能让人们正确认识机器学习和人工智能。这篇博客在海外科技网站Medium上获得了超过7.4k的赞同。让我们来看看。越来越多的人开始认为机器学习真的没什么好兴奋的,它只是对旧统计技术的重新包装。问题是,事实并非如此。可以看出,深度学习交流的狂热已经过时了。即便是那些处于科学顶端的专家现在也失去了使用这个术语的热情,只剩下一点点懊恼,而宁愿淡化现代神经网络的强大,避免让一大批人认为进口keras可以攻克一切难题.一个障碍。正如YannLeCun所说,虽然深度学习已经超越机器学习成为新的流行语,但这种过度矫正的态度导致了对人工智能的发展、未来和实用性的不良怀疑。此外,还有传言称人工智能寒冬即将来临。从这点可以预见,人工智能研究将一如过去几十年那样停滞不前。本文并不是要反对人工智能冬天的说法,也不是要争论机器学习的发展应该归功于一个学术界而不是另一个学术界。本文的目的是正确评估机器学习。人工智能的明显进步不仅限于更大的计算机和更好的数据集。深度神经网络及相关领域最近的成功表明,机器学习代表了科技进步的前沿。机器学习!=统计“当你筹集资金时,你需要人工智能。当你招聘时,你需要机器学习。当你执行任务时,你需要逻辑回归。”——推特网友正如标题所说,这篇文章主要强调机器学习,而不仅仅是美化统计数据。当然,这种“统计美化”概念的形成并不是没有道理的,因为回归、权重、偏差、模型等统计概念在机器学习中被广泛使用。此外,许多模型近似统计函数:logistic组成的分类模型的softmax输出;训练图像分类器的过程被视为逻辑回归。虽然,从技术的角度来看,这个想法是正确的,但是简单地将整个机器学习简化为统计的附属物,就太笼统了。统计学是与数据的理解和解释有关的数学领域。机器学习只是一类计算算法(因此,它诞生于计算机科学)。在很多情况下,这些算法对于帮助理解数据完全没有用处,只能在无法解释的预测模型中发挥一些作用。在某些情况下,例如在强化学习中,算法甚至根本不使用现有数据集。另外,在图像处理的情况下,将像素处理为特征,将图像处理为数据集,只是开始的延伸。当然,这并不意味着机器学习的发展全归功于计算机科学家而不是统计学家。与任何研究领域一样,今天机器学习的成功是多个学术领域共同努力的结果,其中统计和数学是贡献最大的领域。然而,如果要正确评估机器学习方法的强大影响和潜力,首先需要纠正一个误解:人工智能的现代进步无非是使用更大的计算机和更好的数据集的旧统计技术。机器学习不需要高深的统计学知识我想在这里说,在学习机器学习的过程中,我有幸选修了一门关于深度学习技术的优秀课程,作为我本科计算机科学课程的一部分。我们分配的项目之一是在TensorFlow中实施和训练WassersteinGAN。那时我只是选修了统计概论,大部分内容都忘记了。这一次,我的统计能力似乎不是很强。然而,我能够阅读一篇关于最先进的生成机器学习模型的论文,并能够从头开始执行它,实施操作,并通过在MSCelebs数据集上进行训练来生成非常有说服力的假图像。在整个课程中,我和我的同学成功地训练了癌组织图像分割、神经网络机器翻译、基于字符的文本生成和图像风格转换,所有这些都只使用了过去几年发明的最新机器学习技术。但是如果你问我,或者那个班上的大多数学生,如何计算总体方差,或者定义边际概率,我们对此一无所知。这似乎与人工智能只是对古代统计技术的重新发明的说法不一致。必须承认,在深度学习课程中,机器学习专家的统计学背景可能确实比计算机科学本科生更强。除此之外,信息论一般需要对数据和概率有很强的理解,所以我建议如果你有兴趣成为一名数据科学家或机器学习工程师,最好学习统计学并培养统计技能,培养统计直觉。但问题依然存在:如果机器学习只是统计学的附属物,为什么没有统计学背景的人也能深刻理解机器学习的前沿概念?还应该承认,许多机器学习算法需要比大多数神经网络技术更强的统计和概率背景,但这些方法通常被称为统计机器学习或统计学习,以对统计数据进行去色处理,并将其与常规统计数据区分开来.同时,机器学习近年火爆的创新技术大多属于神经网络领域,可以说机器学习不是统计学。当然,机器学习并不孤单。事实上,任何人想要很好地应用机器学习,都会面临各种数据处理问题。因此,对统计数据的了解也是很有必要的。这并不是说机器学习永远不会使用统计概念,也不能说机器学习就是一般意义上的统计学。机器学习=映射+评估+优化客观来说,我和同学在算法、计算复杂度、优化方法、微积分、线性代数,甚至一些概率方面都有很强的基础。在我看来,上面提到的知识都是和我们处理的问题有关的,不是高深的统计学能解决的。机器学习是一类使用迭代“学习”方法来逼近函数的计算算法。华盛顿大学计算机科学教授PedroDomingos提出了构成机器学习算法的三个构建块:映射、评估和优化。表示是将输入从一个空间变换到另一个更有用的空间。在卷积神经网络中,原始像素对于区分猫和狗不是很有用,因此我们将这些像素映射到另一个空间(例如softmax输出的逻辑值),以便对其进行解释和评估。Evaluation的本质是损失函数。您的算法是否有效地将数据转换到另一个更有用的空间?您在softmax中的输出是否与one-hot编码中的分类结果相似?您是否正确预测了扩展文本序列(TextRNN)中出现的下一个单词?您的潜在分布距离单位高斯(VAE)有多远?这些问题的答案可以告诉你映射功能是否有效;更重要的是,它们定义了您需要学习的内容。优化(Optimization)是拼图的最后一块。一旦有了评估方法,就可以优化映射函数并增加评估参数。在神经网络中,这通常意味着使用随机梯度下降的一些变体根据一些定义的损失函数来更新网络的权重和偏差。这样,你就拥有了世界上最好的图像分类器(JeffreyHinton在2012年就是这样做的)。在训练图像分类器时,除了需要注意定义合适的损失函数外,映射函数的输出值是否为逻辑值并不重要。逻辑回归等统计术语为讨论模型空间提供了有用的词汇,但它们并未将优化问题重新定义为数据理解问题。DeepLearningTechniquesDeepNeuralNetworks进一步忽略了统计学的思想,切中要害。全连接节点由权重和偏置组成,这看起来没问题,但是卷积层的原理是什么?调整激活函数?块的规范化?残留层?随意无视?记忆和注意力机制?网络很关键,但它们远不能与传统的统计技术相提并论(因为它们可能根本不是统计技术)。一亿个变量的回归,没问题?我还要指出,深度学习网络和传统统计模型之间的一个区别是它们的规模。深度神经网络的规模是巨大的。VGG-16ConvNet架构有1.38亿个参数。如果学生告诉教师运行包含超过1亿个变量的多元线性回归,他会有什么反应?这太荒谬了。因为VGG-16不是多元线性回归,而是一种机器学习方法。新领域在过去的几年里,您可能花了无数时间阅读论文、帖子和文章,并且看到了机器学习可以做的很多很酷的事情。事实上,深度学习不仅比以往的这些技术更有效,而且还能帮助我们解决完全不同的全新问题。2012年之前,涉及非结构化和半结构化数据的问题非常具有挑战性,可训练的CNN和LSTM使这项任务向前迈进了一大步。他们在计算机视觉、自然语言处理、语音识别等领域取得了显著成果,在人脸识别、自动驾驶、人机对话等领域取得了长足进步。事实上,大多数机器学习算法最终都是通过模型来拟合数据,这可以认为是一个统计过程。宇宙飞船本质上是带翅膀的飞行器,但我们没有看到有人嘲笑NASA在20世纪对太空探索的热情,也没有人认为这是对飞机的过度夸张。和太空探索一样,深度学习的到来并没有解决世界上的所有问题。我们也可以看到很多领域的巨大差距,尤其是“人工智能”领域。深度学习对我们处理复杂的非结构化数据的问题做出了重大贡献。机器学习仍然处于世界技术进步和创新的前沿。这不仅仅是一个闪亮的框架在墙上的裂缝。相关报道:https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3【本文为专栏组织大数据文摘原创翻译,微信公众号“大数据文摘(id:BigDataDigest)》】点此查看作者更多好文