01什么是监督学习要进行监督学习,我们需要从一组样本数据开始,每个样本都有一个计算机可以学习的标签。例如:如您所见,样本可以是许多不同的东西:数据、文本、声音、视频等。此外,标签可以是数字或类型。价值标签只是一个价值,就像温度到柠檬水的转换器。类型标签表示预定义集中的特定类别,例如在狗品种检测器示例中。发挥一些想象力,您可以想出许多其他预测某些事物的示例,以及基于数字或类型标签的其他事物。我们假设已经收集了一些标记样本。现在可以执行两个阶段的监督学习:第1阶段:训练阶段我们将标记样本提供给发现模式的算法。例如,该算法可能会注意到所有肺炎扫描都具有非肺炎扫描中不存在的某些特征(可能是一些不透明区域)。这个阶段称为训练阶段,因为算法一遍又一遍地查看样本数据并学习识别这些模式。第2阶段:预测阶段既然算法知道肺炎是什么样子,它就会切换到预测阶段。我们可以在这个阶段收获训练成果。向经过训练的算法展示未标记的X射线扫描,算法会告诉我们它是否具有肺炎特征。这是监督学习的另一个例子——一个可以识别动物类型的系统。每个输入数据都是某一种动物的图片,每个样本的标签就是图片中动物的种类。在训练阶段,我们展示算法标记的图像。在预测阶段,我们向算法展示未标记的图像并要求算法猜测图像的标签。如前所述,计算机程序可以在机器学习过程中“计算”数据。监督学习就是这种过程的一个例子。在传统的编程过程中,你可以写一个程序,让计算机从输入中计算出输出;在监督学习中,只要给出程序输入和输出的样本数据,计算机就可以学习如何从一个输入计算出一个输出。既然你已经阅读了监督学习的高级解释,可能会有比刚开始时更多的问题。我们说过监督学习程序“通知共同特征”并“发现样本数据中的模式”——但它是如何做到的呢?让我们从抽象层次开始,看看这个魔法是如何工作的。02魔法背后的数学监督学习系统使用函数拟合的数学概念来理解样本数据与其标签之间的关系。下面我们结合具体例子来介绍这个数学概念的基本原理。想象一下,您的屋顶上有一块太阳能电池板。你就像一个有监督的学习系统,学习太阳能电池板如何产生能量,并预测未来某个时间段内会产生多少能量。预测太阳能电池板的能量输出需要时间和天气等变量。时间应该是一个重要的变量,因此您决定关注该变量。对于真正的监督学习过程,您应该首先收集太阳能电池板在一天中不同时间产生的能量的样本数据。经过几周的随机抽样,你有如下数据列表:上表中的每一行都是输入变量(时间)和标签(产生的能量值)的样本,就像识别动物的系统一样,动物图片是输入,动物名称是标签。如果将这些样本数据绘制成图表,就可以直观地看到时间与太阳能电池板产值之间的关系:我们一眼就可以看出太阳能电池板在晚上不产生能量,而能量值在中午达到了它的顶峰。如下图所示,监督学习系统虽然没有人脑那么灵敏,但它可以将样本数据近似拟合成某种函数,从而实现对数据的理解。找到一个更接近样本数据的拟合函数并不是一件容易的事。然而,随后的预测阶段要简单得多。系统会忘记所有样本信息,并使用找到的拟合函数来预测太阳能电池板在未来某个时间产生的能量,例如中午如下图所示:这就是我所说的算法监督学习功能是通过函数拟合实现的。监督学习系统接收到的实际样本数据通常是杂乱和不完整的。在数据训练阶段,我们通常需要构造一个相对简单的函数来逼近和拟合更复杂的实际数据。在预测阶段,利用构造的拟合函数实现对未知数据的预测。作为一名程序员,您习惯于考虑很多可能出错的事情。因此,您可能已经在想办法使示例数据的处理复杂化。例如,太阳能电池板的能量输出可能会受到一天中时间以外的因素的影响,例如云量或月份。如果收集所有这些变量的数据,那么我们最终将得到一个多维点云,无法使用简单的图表将其可视化。同样,对于太阳能电池板,我们需要预测数字标签。您可能想知道如何将此类数字标签转换为非数字标签(例如动物的名称),即类别标签。你现在只需要知道一件事:不管你在上面叠加了多少复杂的东西,监督学习的基本思想和我们刚才描述的一样——找一堆样本数据,然后找到一个模型可以近似拟合这些样本数据。功能。现代监督学习系统非常擅长这种拟合工作。事实上,这个拟合函数可以强大到可以拟合极其复杂的函数关系——比如X光扫描图片和诊断结论之间的关系。当然,用于拟合这些对应关系的函数对我们人类来说会非常复杂。然而,这对于计算机系统来说是小菜一碟。
