【.com快译】无监督机器学习和人工智能显然有助于组织的业务增长,但它们如何发挥作用?为了使他们的市场研究、趋势预测和其他用途有效,人们需要了解一些关键准则。今天我们生活在数字化转型的时代,只有一个不变的因素——进化。组织采用的高科技解决方案正在引领数字化转型。因此,技术进步完全接管了平凡的业务也就不足为奇了。机器学习、人工智能(AI)、无监督机器学习正在重塑组织在市场中的竞争方式。因此,需要了解无监督机器学习在各个行业的广泛应用。什么是无监督机器学习?如果人们了解深度学习,那么他们可能听说过两种机器学习方法:有监督机器学习和无监督机器学习。例如,无论用什么方法组装一张宜家沙发,结果总是一样的。但是有些方法比其他方法更有效。仔细阅读宜家提供的组装说明并按预定义的步骤进行组织当然很好。但是,对于有经验的家具组装工来说,不使用说明书也可以进行组装。机器学习与这个例子几乎相似。如果用户标记可以用作示例的训练数据,人们称之为监督机器学习。然而,当没有预先存在的标签并且需要管理数据集时,它被称为无监督机器学习。无监督机器学习的基础知识与有监督机器学习不同,无监督机器学习不需要管理模型。无监督机器学习使用算法得出关于未标记数据集的结论。因此,无监督机器学习算法比有监督机器学习算法更复杂,因为信息很少或没有办法预测结果。无监督机器学习算法用于:(1)寻找组或簇;(2)做密度估计;(3)降维。总的来说,无监督机器学习算法会达到取消分配数据位的程度。在这方面,无监督机器学习分为两组算法:聚类和降维。聚类——数据探索聚类分析的目的是根据相似性标准将对象划分为聚类。聚类和分类之间的主要区别在于聚类列表没有明确定义,并且在算法运行期间是有意义的。聚类过程可分为以下几个阶段:选择聚类对象;确定变量集;计算对象之间的相似性度量;将相似的对象分组;显示结果。聚类方法是无监督机器学习中使用的最简单的算法之一。但是,它们可以帮助获得有价值的数据洞察力。聚类是跨行业的首选分组方法:营销和销售——用于预测客户行为(个性化和目标)。搜索引擎——用于提供所需的搜索结果。学业-用于监控学生学业成绩的进步。总的来说,聚类是许多领域统计数据分析中常用的技术。降维——修改数据是否曾经尝试过获取包含30k+个变量的数据集?这是一项艰巨的任务。缺失值、错误和不相关的信息会破坏平衡并阻碍数据解释。降维使特征的数量最小化,同时保留原始信息的有意义的属性。从技术角度来看,它意味着一组减少训练数据中输入变量数量的技术。无监督机器学习算法实例K-Means聚类——文档聚类、数据挖掘在无监督机器学习的运行中,k-means聚类算法是最常用的算法。它将对象划分为与属于另一个集群的对象不同的相似集群。在数据挖掘中,k均值聚类用于将观察结果分类为没有预定义关系的相关观察结果。除数据挖掘外,该工具还适用于以下领域:市场细分;文档聚类;图像分割;模式识别;保险欺诈检测等隐马尔可夫模型——模式识别、生物信息学、数据分析如今,对数字化文本的需求越来越大,即将软件将数据从纸质数据转换为数字数据。光学字符识别可用于识别多媒体文件,例如图像、音频或视频。特别是,隐马尔可夫模型允??许用户高度准确地识别文本或符号。通常,隐马尔可夫模型(HMM)是最复杂的机器学习算法之一。它指的是一种统计模型,用于识别可观察事件和组元素的演变。这是一条不可见的马尔可夫链,其中每个状态都会产生一个人类可见的观察结果。该技术已广泛应用于强化学习、时间模式识别、生物信息学等领域。该算法被证明比所有竞争方法更有效,使其成为主要的处理范例。隐马尔可夫模型(HMM)用例还包括:计算生物学;数据分析;遗传预测;手势识别等DBSCAN聚类-基于噪声的市场研究和数据分析应用基于密度的空间聚类或DBSCAN是一种流行的数据聚类算法,已在数据挖掘和机器学习中得到广泛应用。根据很多点,DBSCAN将距离方向上距离较近的元素分组。总体而言,DBSCAN处理包括以下阶段:该技术将数据集划分为维度。对于每个数据元素,该算法创建一个维度形状,然后评估属于该形状的数据点的数量。然后将形状视为簇。DBSCAN的实际例子包括:市场研究;模式识别;数据分析;图像处理等主成分分析(PCA)——人脸识别和推荐系统主成分分析(PCA)是一种降维算法,通过减少仍然保留有价值信息的大量变量来降低大型数据集的维度。在所有无监督机器学习算法中,主成分分析(PCA)可能不是最复杂的方法,但肯定是最重要的方法之一。它不是消除特征,而是以特定方式对输入变量进行分组,跳过最不重要的变量并保留最有价值的变量。作为一种可视化工具,主成分分析(PCA)非常适合显示过程的鸟瞰图。也适用于以下领域:人脸识别;多元数据分析;视频推荐系统;图像压缩等。T-SNE–非线性可视化方法T-DistributedStochasticNeighborhoodEmbedding是另一种仅用于可视化的无监督随机算法。从技术上讲,它是一种降维算法,特别适用于高维数据集的可视化。T-SNE方法的主要优点是它是非线性的,因此比PCA算法更直观。因此,T-SNE适用于各种数据集。T-SNE已用于各种应用程序的可视化,从音乐分析和复杂的观众细分到计算机安全研究、癌症研究和生物信息学。奇异值分解(SVD)–推荐系统奇异值分解(SVD)是一种广泛用于处理矩阵的有效方法。奇异值分解演示了矩阵SVD结构的几何形状,并有助于可视化可用数据。该算法是解决各种问题的首选工具,从最小二乘法解决方案到图像压缩和面部识别。SVD定义了显着的数据特征,使它们适合进一步处理。一个很好的SVD用例是向用户显示相关产品信息的产品推荐。SVD也可用于:去噪数据;从数据集中获取特定类型的信息(例如查找位于某处的每个用户的信息);为特定用户提供推荐(推荐引擎)。关联规则——市场购物分析关联规则是无监督机器学习的核心方法之一。最初,它用于查找超市中的典型购买模式-购物分析。换句话说,关联规则的目的是揭示项目如何相互关联。最后归结为一个简单通俗的市场公式,即买X的人也有买Y的人。因此,关联规则是一个主要的营销工具,可以:开发定制的产品推荐;计划促销活动;改进商品规划和价格优化。结语机器学习已成为获取可操作业务洞察力的强大工具。但是,由于机器学习算法千差万别,因此了解无监督机器学习算法如何成功实现部分业务自动化至关重要。原标题:AnImportantGuideToUnsupervisedMachineLearning,作者:KaylaMatthews
