1.无监督学习无监督学习的特点是模型学习到的数据是没有标签的,所以无监督学习的目标是通过从中学习来揭示数据的真实性这些未标记样本的内在特征和规律通过聚类来表示。与监督学习相比,监督学习是按照给定的标准(这里的标准指的是标签)进行学习,而无监督学习是按照数据的相对标准(数据之间存在差异)进行学习。以分类为例。小时候,当你在区分猫和狗的时候,别人告诉你,这是猫,那是狗。最后,你可以区分猫和狗(并知道它是猫还是狗)。这是监督学习的结果。但是如果小时候没有人教你猫和狗的区别,你却发现猫和狗有区别,那应该是两种动物(虽然你能区分,但是你不知道猫和狗的概念),这是无监督学习的结果。聚类就是这样做的,根据数据的特征将数据分成多个不相交的子集(每个子集称为一个簇)。通过这样的划分,聚类可能会对应一些潜在的概念,但是这些概念需要人工进行归纳和定义。聚类可用于查找数据的潜在特征,也可用作其他学习任务的先导。例如,在一些商业引用中,需要区分新用户的类型,但“用户类型”并不容易定义。因此,通过对用户进行聚类,可以根据聚类结果将每个聚类定义为一个类,然后基于这些类训练模型来识别新用户的类型。2.聚类性能度量聚类有自己的性能度量,类似于监督学习的损失函数。如果没有性能度量,就无法判断聚类结果的好坏。聚类性能大致有两种:一种是将聚类结果与参考模型进行比较,称为外部指标;另一种是不参考其他模型直接检查聚类结果,称为内部指标。在介绍外部指标之前,先作如下定义。对于样本集,我们可以给每个样本一个单独的编号,我们表示编号为ij的样本属于同一个簇,其中i
