当前位置: 首页 > 科技观察

缺什么?当前机器学习教育的短板_0

时间:2023-03-22 14:51:34 科技观察

大数据文摘来源:thegradient编译:FisherAIcareer“career”技能。不过,在报班之前,你应该了解一下你即将获得的技能是否可以直接帮助你更好地玩机器学习。这不仅限于在线课程,也适用于机器学习许多大学开设的课程——这些学生蜂拥而至的课程,真的帮助他们实现了他们的实际目标吗?参加人工智能后机器学习教育的现状在顶尖大学的机器学习基础课程的主干下,我发现这些课程中的大多数都遵循一个大纲:它们倾向于从线性分类器开始,然后介绍回归和分类概念ith介绍损失函数和优化,然后会有一两周的时间详细介绍反向传播,然后我们将完全进入神经网络。如果课程主要侧重于深度学习,则其余大部分时间都在讨论各种神经网络(递归神经网络RNNs、长短期记忆网络LSTM、卷积神经网络CNNs等),例如ResNet、BERT).相反,如果课程总体上更侧重于机器学习,则会介绍机器学习方法的其他分支,例如无监督学习和强化学习。我们可以提炼出这些课程的关键主题:监督学习的概述,监督学习和神经网络的数学基础的简要介绍,以及深度学习方法或机器学习其他领域的介绍。此外,查看课程作业涵盖的内容将有助于我们阐明课程的主要目标。作业通常组织如下:学生获得结构良好的数据集;介绍机器学习中的一个模型或核心概念,然后学生推导出这个模型的基础;学生实施该模型;运行模型,做一些轻量级的超参数调试;绘制结果以查看模型的性能。在了解了课程内容和作业设计后,我们基本知道这些课程希望学生学习什么。他们希望学生掌握该领域的关键模型,他们的方法是简单地涵盖所述模型的理论基础,然后要求学生在作业中实现其主要关键功能。使用机器学习所需的技能通过与机器学习行业的人聊天,我了解到有几个关键技能是成功所必需的。第一项技能是学习如何正确地清理和分析数据。我的一位同学非常同意,他在最近的一次实习中花了8周时间收集和处理数据,然后才能继续将模型应用于数据集。机器学习模型非常依赖数据,因此掌握这项技能对于确保您了解如何利用数据集的关键特征非常重要。其次,对于工业项目,大部分任务都找不到大数据集。因此,许多深度学习技术无法使用——可能导致过度拟合和泛化能力差的问题。因此,人们经常使用不需要大量数据的更简单的模型作为替代方案,例如随机森林或逻辑回归。因此,能够通过合适的库(例如sci-kitlearn)正确使用这些模型成为一项宝贵的技能。事实上,一位朋友告诉我,他在Microsoft的机器学习实习期间,整个夏天都在研究逻辑回归的变体。此外,随着计算机视觉和自然语言处理领域出现大型预训练模型,深度学习有时只是一个微调参数的过程。这进一步增加了熟悉简单、基本模型的重要性。然而,对于学术界的研究,大数据集通常很容易获得,时间限制不是问题,因此我们可以训练更大的深度学习模型。例如,Open-AI的GPT3模型有1750亿个参数。要创建这么大的架构,关键是要从工程学上知道如何设计和构建这么大的深度学习系统。这需要精通PyTorch或Tensorflow,这种技能可以让研究人员快速有效地实施理论模型。构建所需的框架很重要,但大多数模型还需要超参数调整才能表现良好。构建实用的机器学习系统的关键技能之一是对调优过程的设计有直观的把握,而不是盲目调优。以我的一个朋友为例,他最近在Nvidia实习。他一时无法调整某个模型的参数,直到最后发现是自己选择的初始化区间有问题,导致模型中的大部分ReLU激活函数都被抑制了。耽误学习。缺少什么在检查了机器学习教育的现状并讨论了真正的机器学习实践所需的技能之后,我们现在可以评论教育中缺少的内容。比较课程涵盖的内容和实践的要求,显然没有教给学生如何管理数据。一方面,课程提供的数据集非常干净,经过了很好的预处理。另一方面,课程除了抽取几个数据点外,并不鼓励过多的数据挖掘。这种缺乏清洗和挖掘数据集的第一手实践,非常不利于学生实际上阵时的实践能力。此外,虽然课堂对关键理论框架的数学背景进行了直观的解释,但向学生解释了为什么给定模型在特定任务下表现优于其他模型背后的理论。不够。因此,尽管学生熟悉许多模型,但他们仍然不知道哪些模型最适合给定的数据集和任务。如果不完全了解关键模型和技术的数学基础的所有细节,学生就无法针对特定情况快速选择正确的模型。哪些做得好,哪些可以做得更好通过分析课堂知识和实践技能之间的差距,我们可以看到大部分课程都在传授基础知识方面做得很好。课程中教授的概念让您了解机器学习算法的工作原理以及它如何收敛。该课程还让学生熟悉针对不同任务的各种最佳算法,并让他们接触范围广泛的学习材料,以帮助有抱负的人走得更远。但是,仍有很大的改进空间。许多课程在前几周都在同一个地方度过:线性分类器和反向传播。这些无疑是关键主题,但将近三分之一的课堂时间花在准备材料上并不是最佳选择——区分本科和研究生内容可能会有用。研究生课程可能要求学生已经掌握先决条件知识,或指导学生参加本科同等课程。这让课堂上有充足的时间教学生如何处理特定感兴趣领域的数据,或进一步完善他们对该领域内关键理论框架的理解。我相信这样做可以让机器学习课堂更好地将课堂知识与实践技能联系起来。显然,这不能通过将一门课程作为一系列课程的一部分进行孤立的更改来实现,只有整个社区的协调改进才能确保学生掌握最新、最有用的知识。学校为什么要关注?虽然本文提到的弥合差距对于提高学生的实践能力肯定是有用的,但是很多课程还是会说培养行业需要的能力不是他们的事。然而,这些技能远非行业所独有,而是可以转移的。事实上,它们几乎在任何情况下都有用。例如,在学术研究中开发新模型时,您还需要知道如何正确处理数据以及哪些技术会带来更有利的结果。此外,这些技能是如此基础,以至于掌握它们可以使学生成为更好的机器学习实践者——任何有助于学生智力结构的东西都应该被重视并在课程中教授。从目前的课程状态来看,人工智能课程可以让你入门,无论你是想从事前沿研究还是想在工业界找工作,但它们不会教你所有需要的东西。弥补缺失的部分需要你自己付出大量的课外努力。相关报道:https://thegradient.pub/the-gap-where-machine-learning-education-falls-short/BigDataDigest)》】点此查看作者更多好文