随着人工智能(AI)技术对各行各业的影响越来越深远,我们在新闻或报道中也听到更多诸如“机器学习”之类的词”、“深度学习”、“强化学习”、“神经网络”对于非专业人士来说有点虚无缥缈。整理出包括这些在内的12个关键词,希望能帮助读者更清楚地了解这项人工智能技术的内涵和潜力。1.机器学习TomMichel教授就职于卡内基梅隆大学计算机科学学院和机器学习系。按照他在《机器学习》一书中的定义,机器学习就是“研究如何创建计算机程序”。机器学习本质上是跨学科的,它使用计算机科学、统计学和人工智能等学科的知识。机器学习研究的一个主要产品是有助于根据经验自动改进的算法。这些算法可以在计算机视觉、人工智能和数据挖掘等各个行业中有广泛的应用。2.分类分类的意思就是建立一个模型,把数据分成不同的类别。这些模型是通过为训练数据库提供预先标记的类别来构建的,供算法从中学习。然后,为模型提供一个未标记的类别数据库,让模型根据从训练数据库中学到的知识来预测新数据的类别。因为此类算法需要明确标记类别,所以分类是“监督学习”的一种形式。3.回归回归与分类密切相关。分类是关于预测离散类别,而当预测的“类别”由连续数字组成时,回归很有用。线性回归是回归技术的一个例子。4.Aggregation聚合用于分析不包含预先标注类别,甚至类别特征都没有标注的数据。数据个体的分组原则是这样一个概念:最大化组内相似度,最小化组间相似度。这就是聚类算法的用武之地,识别非常相似的数据并将其分组在一起,而未分组的数据不太相似。K均值聚合可能是最著名的聚合算法示例。由于聚类不需要预先标记类别,它是一种“无监督学习”的形式,这意味着算法从观察而不是示例中学习。5.Association要解释association,最简单的方法就是介绍“购物篮分析”,这是一个比较知名的典型例子。购物篮分析假设购物者已将各种物品(物理的或虚拟的)放入购物篮中,目标是识别各种物品之间的关联并分配支持和置信度度量以进行比较(编者注:置信度是统计数据概念,意思是在总体参数的区间内估计一个样本)。这里的价值在于交叉营销和消费者行为分析。关联是市场篮子分析的概括,类似于分类,只是关联可以预测任何特征。Apriori算法被称为最著名的关联算法。关联也是“无监督学习”的一种形式。在决策树的例子中,逐步解决和分类方法带来了树结构。图片来源:SlideShare。6.决策树决策树是一种自上而下、逐步递归的分类器。决策树一般包括两个任务:归纳和修剪。归纳是用一组预先分类好的数据作为输入,确定哪些特征最好用于分类,然后对数据库进行分类,然后根据生成的分类数据库递归,直到所有训练数据都分类完毕。构建树时,我们的目标是找到要分类的特征以创建最纯粹的子部分,以便对数据库中的所有数据进行分类所需的排序次数最少。这种纯度是用信息的概念来衡量的。完整的决策树模型可能过于复杂,包含不必要的结构并且难以解释。因此,我们还需要对这个环节进行“修剪”,将决策树中不需要的结构去掉,让决策树更高效、更易读、更准确。右上箭头:最大边距超平面。左下箭头:支持向量。图片来源:KDNuggets。7.支持向量机(SVM)SVM可以对线性和非线性数据进行分类。SVM的原理是将训练数据变换到更高的维度,然后在这个维度上检查最优分离距离,或者不同类别中的边界。在SVM中,这些边界被称为“超平面”,并通过定位支持向量或通过最佳定义类型及其边界的情况来划分。边界是平行于超平面的直线,定义为超平面与其支持向量之间的最短距离。SVM的宏大概念可以概括为:如果有足够的维度,则必须找到分隔两个类别的超平面,从而使数据库成员的类别非线性化。当重复足够多的次数时,可以生成足够多的超平面来分隔N个空间维度中的所有类别。8.神经网络神经网络是一种受人脑启发的算法。虽然这些算法在多大程度上模拟了真实的人脑功能,目前还存在很多争议,但我们不能说这些算法真正模拟了人脑。神经网络由无限数量的相互连接的概念人工神经元组成,这些人工神经元在彼此之间传递数据,并根据神经网络的“经验”具有不同的关联权重。“神经元”有一个激活阈值,如果单个神经元权重的组合达到阈值,神经元就会“放电”。神经元放电的组合带来了“学习”。9.深度学习深度学习是一个比较新的词汇,虽然它在互联网搜索流行之前就已经存在了。该词汇表在研究和工业界都享有盛誉,主要是因为它在一系列不同领域取得了巨大成功。深度学习是应用深度神经网络技术——具有多个神经元隐藏层的神经网络架构——来解决问题。深度学习是一个类似于使用深度神经网络架构进行数据挖掘的过程,这是一种独特的机器学习算法。10.强化学习对“强化学习”最好的描述来自剑桥大学教授、微软研究科学家ChristopherBishop。他用一句话总结得很准确:“强化学习就是在某种情况下找到最合适的行为,从而使奖励最大化。”在强化学习中,没有给出明确的目标,机器必须通过试错来学习。我们以经典的马里奥游戏为例,通过不断的试错,强化学习算法可以判断出某些行为,即某些游戏按钮可以提高玩家的游戏性能,这里试错的目的是优化游戏性能。K级交叉验证的一个例子,每轮使用不同的数据进行测试(蓝色是训练数据,黄色是测试数据),每一轮的验证准确率显示在框下方。最终验证准确率是10轮测试的平均值。图片来源:GitHub。11.K-levelcross-validation交叉验证是一种构建方法一个模型,从数据库中去掉第K层的一层,训练第K-1层的所有数据,然后用剩下的第K层进行测试,这个过程重复K次,每次用a的数据进行测试差异ferent层,误差结果在集成模型中组合和平均。这样做的目的是尽可能生成最准确的预测模型。12.贝叶斯当我们讨论概率时,有两种最主流的思想流派:概率论的经典流派关注随机事件的频率。相比之下,贝叶斯主义者认为概率的目标是量化不确定性并在获得额外数据时更新概率。如果将这些概率扩展到真实值,我们就会有不同程度的确定性“学习”。
