当前位置: 首页 > 科技观察

什么是机器学习中的降维?

时间:2023-03-12 13:17:52 科技观察

【.com快言】机器学习算法以其从具有许多特征的数据中提取相关信息的能力而闻名,例如具有数十行的表格和具有数百万像素的图像。得益于云计算技术的进步,无论背后需要多少计算能力,组织都可以轻松运行海量机器学习模型。但是,组织向模型添加的每个新功能都会增加其复杂性,从而使机器学习算法难以解决这些问题。数据科学家使用降维技术进行这种简化,这是一组从他们的机器学习模型中删除过多或不相关特征的技术。降维降低了机器学习的成本,有时还可以使用更简单的模型来解决复杂的问题。维度问题机器学习模型将特征映射到结果。例如,假设一个组织想要创建一个机器模型来预测一个月的降雨量。该组织有一个数据集,其中包含在不同月份从不同城市收集的不同信息。它的数据点包括温度、湿度、城市人口、交通、城市举办的音乐会数量、风速、风向、气压、降雨量以及购买的公交车票数量。并非所有这些信息都与降雨预报有关。有些特征可能与目标变量无关。很明显,购买的公交车票数量和城市人口不会影响降雨量。虽然其特征可能与目标变量相关,但与目标变量没有因果关系。例如,户外音乐会的数量可能与降雨量有关,但这并不是预测降雨量的好指标。在其他情况下(例如碳排放),其特征与目标变量之间可能存在联系,但其影响可以忽略不计。在这个例子中,很明显哪些特征更有价值,哪些没有。在其他用例中,过多的功能可能并不明显,需要进一步的数据分析。但是为什么要删除多余的功能呢?当特征太多时,需要采用更复杂的模型。更复杂的模型意味着组织需要更多的训练数据和更多的计算能力来将模型训练到可接受的水平。机器学习不理解因果关系。但即使没有因果关系,机器学习模型也会尝试将其数据集中包含的所有特征映射到目标变量。这样做会导致模型不准确和错误。另一方面,减少特征数量可以使机器学习模型更简单、更高效,并且对数据的要求更低。特征过多导致的问题通常被称为“维数灾难”,而且不仅限于表格数据。一个例子是对图像进行分类的机器学习模型。如果数据集由100×100像素的图像组成,则其问题空间有10,000个特征,每个像素一个特征。然而,即使在图像分类问题中,一些特征也是多余的,可以删除。降维识别并删除会损害机器学习模型性能或无助于准确性的特征。有多种降维技术,每种技术在特定情况下都有用。特征选择一种基本且非常有效的降维技术是识别和选择与目标变量最相关的特征子集。这种技术称为“特征选择”。在处理表格数据时,特征选择特别有效,其中每一列代表一种特定的信息。在选择特征时,数据科学家需要做两件事:一是保留与目标变量高度相关的特征,二是最大化数据集的方差贡献。Python的Scikit-learn等库具有许多很好的功能,可用于分析、可视化和选择适合机器学习模型的特征。例如,数据科学家可以使用散点图和热图来可视化不同特征的协方差。如果两个特征彼此高度相关,那么它们将对目标变量产生相似的影响,并且没有必要在机器学习模型中包含这两个特征。因此,可以删除其中一个特征而不会对模型的性能产生负面影响。热图说明了不同特征之间的协方差,它们是查找和剔除冗余特征的良好指南。同样的工具可以帮助可视化特征和目标变量之间的相关性。这有助于删除不影响目标的变量。例如,在一个可能的发现数据集中的25个特征中,有7个特征占了对目标变量影响的95%。这将删除其他18个特征,并使机器学习模型更易于使用,而不会显着影响模型的准确性。投射技术有时,组织无法选择删除个人特征。但这并不意味着机器学习模型无法简化。投影技术,也称为“特征提取”,通过将多个特征压缩到低维空间来简化模型。用于表示投影技术的一个常见示例是“瑞士卷”(如下图所示),它是围绕三个维度在卷轴上旋转的一组数据点。该数据集具有三个特征。每个点(目标变量)的值是根据它沿着卷积路径到“瑞士卷”中心的距离来衡量的。下图中,红点离卷线器较近,而黄点则离卷线器较远。在目前的状态下,创建一个将瑞士卷点的特征映射到它们的值的机器学习模型是一项艰巨的任务,需要具有许多参数的复杂模型。但是通过降维技术,可以将这些点投影到低维空间中,从而可以通过简单的机器学习模型进行学习。数据科学家开发了各种投影技术。在上面的示例中,使用了“局部线性嵌入”算法,它降低了问题空间的维数,同时保留了分隔数据点值的关键元素。使用局部线性嵌入(LLE)处理数据时,结果类似于下图,就像展开的“瑞士卷”。每种颜色的点聚集在一起。实际上,这个问题仍然可以简化为单个特征并使用线性回归(最简单的机器学习算法)进行建模。尽管这个例子是假设性的,但如果将特征投影到较低维空间,人们经常会遇到可以简化的问题。例如,流行的降维算法“主成分分析”(PCA)已经找到了许多有用的应用程序来简化机器学习问题。在中,数据科学家AurelienGeron展示了如何使用“主成分分析”(PCA)将MNIST数据集从784个特征(28×28像素)减少到150个特征,同时保留95%的方差。这种降维技术对降低人工神经网络的训练和运行成本有着巨大的影响。谈到投影技术时,还有一些注意事项需要考虑。一旦采用投影技术,新的数据点必须先转换为低维空间,然后才能通过机器学习模型运行它们。然而,这个预处理步骤的成本无法与采用更轻模型的好处相提并论。第二个考虑因素是转换后的数据点不直接代表它们的原始特征,将它们转换回原始空间可能很棘手,在某些情况下甚至是不可能的。这可能会导致难以解释模型的推论。机器学习工具箱中过多的降维特征会导致机器学习模型效率低下,但去除过多的特征又会影响准确率。降维技术是数据科学家用来构建更好的机器学习模型的众多工具之一。与所有工具一样,使用它们时必须小心。原标题:机器学习:什么是降维?,作者:BenDickson