当前位置: 首页 > 科技观察

什么是监督学习、非监督学习和强化学习?终于有人知道了

时间:2023-03-15 22:23:46 科技观察

01术语本节概述了机器学习及其三个分类(监督学习、非监督学习和强化学习)。首先,与机器学习相关的术语包括人工智能(AI)、机器学习(ML)、强化学习、深度学习等,这里对这些术语进行简单的整理。AI意为人工智能,其定义因研究者而异。广义上指的是“类人智能系统和配备此类系统的机器人”。实现人工智能的方法之一是机器学习。机器学习可以简单描述为“向系统提供数据(称为训练数据或学习数据),并从数据中自动确定系统的参数(变量值)”。相反,基于规则的系统是非机器学习系统的一个例子。在基于规则的系统中,由人来明确定义分支条件的参数,例如实现代码中存在的if语句。另一方面,机器学习根据训练数据自动确定代码中的参数,使系统表现良好。之所以称为机器学习,正是因为系统可以根据训练数据计算并确定系统运行所需的参数。强化学习是机器学习的一种。机器学习可以分为三大类:监督学习、非监督学习和强化学习。我们稍后会讨论这三个类别,但在这里我们只需要认识到强化学习是机器学习的一部分。接下来是深度学习。深度学习是实现机器学习的算法之一。机器学习算法包括逻辑回归、支持向量机(SupportVectorMachine,SVM)、决策树、随机森林和神经网络。深度学习是一种神经网络。最后,深度强化学习。深度强化学习是强化学习和深度学习的结合。02监督学习、非监督学习和强化学习这里介绍三种机器学习(监督学习、非监督学习和强化学习)。首先解释监督学习。例如,“对邮政编码中的手写数字进行分类”就是一种监督学习。邮政编码分类系统将每个数字的手写图像分类为0-9之一。诸如0到9之类的数据的分类目标称为标签或类。这样的系统被称为监督学习,因为正确的标签是为预先提供的训练数据预先标记的。换句话说,带标签的训练数据成为系统的老师。监督学习包括学习阶段和推理阶段。我们将以图为例来说明手写数字的分类(见图1.1)。▲图1.1使用监督学习区分手写数字的例子在学习阶段,准备了很多0到9的手写数字图像数据作为训练数据。训练数据有一个标签(从0到9的某个值),根据这个标签可以找到手写数字图像的正确答案信息,比如“这张手写数字图像是1”。在学习阶段,当手写数字的图像被输入系统时,系统会调整(学习)参数以尝试将输入图像分类到正确的标签中。在应用阶段,将未标注的未知手写数字图像数据输入系统,将图像分类为0~9的某个输出标签并给出结果。如果学习了正确的结果,系统将在给定未知手写数字的图像时输出正确的数字标签。除了手写数字的分类,监督学习还可以用于图像、声音和文本数据的分类。此外,除了上述示例中提到的分类任务外,监督学习还用于回归等任务。接下来介绍无监督学习。无监督学习的一个词是“分组”。它将大量数据中的相似数据分组(称为聚类)。例如,“基于购买数据对客户进行分组的系统”就是无监督学习。通过根据客户的购买历史特征对客户进行分组,可以针对每个组实施不同的销售策略。我们使用图表来说明购买数据分析的示例(见图1.2)。假设存储和分析每个客户过去一年的购买数量和平均消费金额的数据。根据这些数据,客户可以分为两组。A组(左上角)是高价商品购买频率较低的组,B组(右下角)是重复多次但每次消费金额较小的组。▲图1.2使用无监督学习根据购买数据对客户进行分组的示例使用无监督学习进行分组将有助于了解每个客户所属的群体,并针对每个群体实施最佳销售策略(尽管有些业务需要更详细的分析)。除了本例中提到的分组(聚类)之外,无监督学习也被用于降维和推荐系统。最后,我们讨论强化学习。强化学习是一种主要用于“时变系统控制规则构建”和“战斗游戏策略构建”的方法。例如,强化学习用于机器人的行走控制和围棋程序(见图1.3)。▲图1.3强化学习示例(机器人行走控制和围棋游戏系统)在我们熟悉的示例中,可能更容易想象孩子学习骑自行车的情况。孩子学骑自行车时,没有人教牛顿力学等力学定律和骑车的详细方法,更不用看视频学骑车。其实就是自己尝试骑自行车,在多次失败的过程中寻找骑自行车的方法。强化学习就像学习骑自行车的例子。它是在不知道被控对象的物理规律的情况下,通过反复试错来学习所需控制方法的学习方法。强化学习中没有标注数据作为训练数据,但这并不代表完全没有监督信息。该系统根据强化学习程序运行,在达到预期结果时发出称为奖励的信号。比如在机器人行走控制中,能够行走的距离就是奖励。在围棋的博弈程序中,输赢的结果就是奖励。失败的奖励是负值,也称为惩罚。如果想通过监督学习来学习机器人行走控制,需要尽可能多的模式“如果腿的关节是这个角度,速度是某个值,那么就这样转动电机A”,并给出其正确性提前。做事的方式。然而,当机器人在行走时,很难预先给出正确的方法来控制每个时刻变化的状态下的电机。另一方面,在强化学习中,将步行距离作为奖励给予步行控制系统,并重复多次试验。这样,强化学习系统就根据“如果前一次试验的变化让我走得更远,那么这次变化是正确的”,根据反复试验和获得的奖励,改变控制规则本身。因此,可以在不教机器人如何走路的情况下使机器人逐渐走更长的距离。即使在围棋这样的对战游戏的策略构建中,也没有必要在每个阶段都将强者作为教师数据来教授,只通过奖励成功或失败来重复试验就足够了。在这样做的过程中,强化学习系统一点一点地改变游戏规则,变得更加强大。学习到的围棋或将棋系统比设计者自己强,可以通过强化学习轻松实现。只听这个解释,强化学习就像魔术一样,但在实践中却有各种各样的困难。强化学习主要适用于“时变系统控制规则构建”和“战斗游戏策略构建”。本书以前者“系统控制”为目标任务,通过编写相关程序来学习强化学习。关于作者:YutaroOgawa,博士东京大学毕业,在东京大学从事脑功能测量和计算理论方面的神经科学研究。目前就职于电通国际信息服务有限公司技术开发部,从事机器学习相关技术的研发工作。本文节选自《边做边学深度强化学习:PyTorch程序设计实践》,经发布者授权发布。