机器学习是人工智能的一个子集,通过实例和经验教会计算机执行任务,是研究和开发的热点领域。机器学习算法用于我们日常使用的许多应用程序,包括AI助手、网络搜索和机器翻译。您的社交媒体新闻提要由机器学习算法提供支持。您看到的推荐视频是机器学习模型的结果。Spotify的DiscoveryWeekly使用机器学习算法的强大功能来创建适合您口味的歌曲列表。但是机器学习有许??多不同的风格。在本文中,我们将探讨机器学习算法的两大类监督学习和非监督学习。每个子集包含许多适用于各种任务的不同算法。关于机器学习的快速说明在深入研究有监督和无监督学习之前,让我们首先了解什么是机器学习。今天的人工智能系统以最简单的形式将输入转化为输出。例如,图像分类器将图像或视频帧作为输入并输出图像中包含的对象类别。欺诈检测算法将支付数据作为输入并输出交易被欺诈的可能性。下国际象棋的AI将棋盘的当前状态作为输入并输出下一步。开发智能系统的经典方法称为符号人工智能,它要求程序员明确指定将输入映射到输出的规则。尽管有很多好处,符号人工智能在输入可以以多种形式出现的领域中的使用有限,例如计算机视觉、语音识别和自然语言处理。相比之下,机器学习使用不同的方法来培养行为。在创建ML系统时,开发人员会创建一个通用结构并在许多示例上对其进行训练。这些示例可以是带有相应图像的图片、国际象棋游戏数据、客户购买的物品、用户收听的歌曲,或者与AI模型试图解决的问题相关的任何其他数据。分析训练数据后,机器学习算法调整其内部参数以能够处理新的输入数据。监督学习逻辑回归是一种监督机器学习算法,可将输入分类为不同的类别。如果你关注人工智能新闻,你可能听说过人工智能算法需要大量人工标记的例子。这些故事指的是监督学习,这是一种更流行的机器学习算法。当您知道输入数据的结果时,监督机器学习就会起作用。假设您要创建一种图像分类机器学习算法,可以检测猫、狗和马的图像。要训??练AI模型,您必须收集大量猫、狗和马的照片数据集。但是在将它们输入机器学习算法之前,您必须用它们各自的类名来注释它们。注释可能包括使用文件命名约定将每个类的图像放置在单独的文件夹中,或将元数据附加到图像文件。这是一项费力的手动任务,在有关AI血汗工厂的故事中经常提到。一旦数据被标记,机器学习算法(例如卷积神经网络或支持向量机)就会处理这些示例并开发一个数学模型,将每个图像映射到其正确的类别。如果AI模型在足够多的标记样本上进行训练,它将能够准确地检测出包含猫、狗和马的一类新图像。监督机器学习解决两类问题:分类和回归。上面说明的示例是一个分类问题,其中机器学习模型必须将输入放入特定的桶或类别中。分类问题的另一个例子是语音识别。回归机器学习模型不限于特定类别。它们可以具有连续无限的值,例如客户将为产品支付多少或明天下雨的概率。一些常见的监督学习算法包括:线性和逻辑回归朴素贝叶斯支持向量机决策树和随机森林人工神经网络无监督学习无监督机器学习算法可以根据共享特征将数据划分为集群假设您是电子商务零售企业主拥有数以千计的客户销售记录。您想要找出哪些客户有共同的购买习惯,以便您可以使用此信息向他们提出相关建议并改进您的追加销售政策。问题是您没有预定义的类别来将客户分成多个类别。因此,您无法训练受监督的机器学习模型来对客户进行分类。这是一个聚类问题,主要用于无监督机器学习。与监督学习不同,无监督机器学习不需要标记数据。它搜索训练示例并根据它们的共同特征将它们分成几类。经过训练的无监督机器学习算法会将您的客户划分为相关的集群。这将帮助您根据客户与集群中其他人的共同偏好来预测客户将购买什么。K-means是一种著名的无监督聚类机器学习算法。使用k-means的挑战之一是知道将数据分成多少个簇。太少的集群会包含较少的相似数据,而太多的集群只会让你的模型变得复杂和不准确。除了聚类,无监督学习还可以进行降维。当数据集具有太多特征时,可以使用降维。假设您有一个客户信息表,其中有100列。拥有大量关于客户的数据听起来很有趣。但事实并非如此。随着数据中特征数量的增加,您还需要更大的样本集来训练准确的机器学习模型。您可能没有足够的样本来训练具有100列的模型。过多的特征也会增加过度拟合的可能性,这实际上意味着您的AI模型在训练数据上表现良好,但在其他数据上表现不佳。无监督机器学习算法分析数据并找到不相关的特征,可以删除这些特征以简化模型而不会丢失有价值的见解。比如我们的customers表,通过降维算法运行后,我们可能会发现客户年龄和家庭住址相关的特征相关性不大,可以去掉。主成分分析(PCA)是一种流行的降维机器学习算法。一些安全分析师还使用无监督机器学习进行异常检测,以识别组织网络中的恶意活动。无监督学习的好处之一是它不需要监督学习必须经历的费力的数据标记过程。然而,权衡的是评估其绩效的有效性也非常困难。相反,可以通过将其输出与测试数据的实际标签进行比较来轻松衡量监督学习算法的准确性。
