当前位置: 首页 > 科技观察

基于机器学习的数字距离:空间中点与点之间的距离

时间:2023-03-16 18:39:33 科技观察

在机器学习中,一个基本概念是如何判断两个样本之间的差异,从而能够评估相似度和类别等信息。判断这种相似性的度量是特征空间中两个样本之间的距离。根据数据的不同特点,有多种测量方法。一般来说,对于两个数据样本x,y,定义一个函数d(x,y),如果定义为两个样本之间的距离,那么d(x,y)需要满足以下基本性质:非负性:d(x,y)>=0恒等式:d(x,y)=0?x=y对称性:d(x,y)=d(y,x)三角不等式:d(x,y)<=d(x,z)+d(z,y)一般而言,常见的距离度量包括:空间中点之间的距离、字符串之间的距离、集合的相似性、变量/概念分布之间的距离四种类型。今天我们先介绍一下空间中最常用的点的距离。空间中点的距离包括以下几种:1.欧氏距离(EcllideanDistance)毫无疑问,欧氏距离是大家最熟悉的距离,它是两点之间的直线距离。初中学过数学的同学都知道,在直角坐标系下如何计算二维空间中两点之间的距离。计算公式为:扩展到N维空间的欧式距离为:2.曼哈顿距离(ManhattanDistance)曼哈顿距离又称出租车距离。它的概念来自纽约曼哈顿,那里有许多水平和垂直的街区。在这个街区,如果出租车司机要从一个点到另一个点,计算直线距离是没有用的,因为出租车是不可能飞过大楼的。所以,这个距离通常是将两点的东西和南北距离相减再相加得到的,也就是出租车实际要行驶的距离。如图所示,红线和黄线分别是两条不同路径的曼哈顿距离。在数学上,二维空间中曼哈顿距离的计算方法如下:3.切比雪夫距离(ChebyshevDistance)切比雪夫距离定义为两点坐标之差的最大值。最直观的例子就是象棋中的王,因为它可以走直线也可以走对角线,但是一次只能走一格,所以切比雪夫距离就是他走到另一格所需要的最小值。距离。4、闵可夫斯基距离(MinkowskiDistance)闵可夫斯基距离本身并不是一个特殊的距离,而是多个距离(曼哈顿距离、欧氏距离、切比雪夫距离)组合而成的公式。定义为,对于两个n维变量,Min的距离为:当p=1时,可见此时为曼哈顿距离。当p=2时,可以看出这就是欧氏距离。当p=∞时,可以看出这就是切比雪夫距离。5、标准化欧几里得距离(StandardizedEuclideanDistance)欧几里得距离可以衡量两点之间的直线距离,但在某些情况下可能会受到不同单位的影响。比如,如果同时有5、5毫米的身高差和5公斤的体重差,观感可能就完全不一样了。如果我们要对三个模型进行聚类,它们各自的属性如下:A:65000000mg(即65kg),1.74mB:60000000mg(即60kg),1.70mC:65000000mg(即65kg),1.40米按照我们正常的理解,AB是身材较好的模特,应该归为一类。但实际按上述单位计算时,发现A和B的差值大于A和C的差值,原因是属性的计量单位不同导致数值相差太大。如果更改单位,则数据相同。A:65公斤,174厘米B:60公斤,170厘米C:65公斤,140厘米那么我们就得出我们想到的结果,把A和B归为一类。因此,为了避免这种因计量单位不同而产生的差异,我们需要引入标准化的欧氏距离。在这个距离计算中,每个分量被标准化为一个均值和方差相等的区间。假设样本集X的均值(mean)为m,标准差(standarddeviation)为s,则X的“标准化变量”表示为:其中,标准化后的值=(标准化前的值-分量的平均值)/的分量标准差。经过简单的推导,可以得到两个n维向量之间的标准化欧氏距离公式:如果将方差的倒数作为一个权重,那么这个公式可以看作是一个加权欧氏距离(WeightedEuclideandistance)。通过这样的操作,我们有效的消除了不同称量单位之间的差异。6.兰斯和威廉姆斯距离(LanceandWilliamsDistance)兰斯距离,又称堪培拉距离,是一种无量纲指标,克服了明氏距离与各指标量纲相关的缺点,且对较大的奇异值不敏感,特别适用于调度有偏差的数据。但是这个距离也没有考虑变量之间的相关性。所以如果需要考虑变量之间的相关性,还是需要马氏距离。7、马氏距离(MahalanobisDistance)对数值进行标准化后,会不会出现问题?或许。比如一维的例子,如果有两个类,一个类的均值为0,方差为0.1,另一个类的均值为5,方差为5。那么一个值为2的点应该属于哪个类呢?我们直觉上认为肯定是第二种,因为第一种显然不可能达到2的值。但实际上,如果从距离上计算,数字2一定属于第一类。因此,在一个方差很小的维度上,一个很小的差异就可能成为异常值。例如下图中,A点和B点相对于原点的距离相同,但由于样本整体沿横轴分布,B点更可能是样本中的一个点,而A点更可能是异常值。在维度不独立同分布的情况下,也会出现问题。比如下图中A点和B点的距离等于原点,但是主分布类似于f(x)=x,所以A更像是一个离群点。因此,我们可以看出,在这种情况下,归一化的欧几里德距离也会出现问题,所以我们需要引入马氏距离。马氏距离根据主成分旋转变量,使维度相互独立,然后标准化,使维度均匀分布。主成分就是特征向量的方向,所以只需要按照特征向量的方向旋转,然后缩放特征值的倍数就可以了。比如对上图进行变换后会得到如下结果:可见离群点已经成功分离。马氏距离是由印度数学家马氏提出的,用来表示数据的协方差距离。它是一种高效计算两个未知样本集相似度的方法。对于均值和协方差矩阵为Σ的多元向量,其马氏距离(单个数据点的马氏距离)为:对于服从相同分布且其协方差矩阵为Σ的两个随机变量X和Y的差异度,数据点x,y之间的马氏距离为:如果协方差矩阵是单位矩阵,则马氏距离简化为欧氏距离。如果协方差矩阵是对角矩阵,那么马氏距离就变成了标准化的欧氏距离。8.余弦距离余弦距离顾名思义来源于几何学中角度的余弦值,可以用来衡量两个向量在方向上的差异,而不是距离或长度。当余弦值为0时,两个向量正交,夹角为90度。夹角越小,余弦值越接近1,方向越收敛。在N维空间中,余弦距离为:值得指出的是,余弦距离不满足三角不等式。9.测地距离测地距离原指球体表面之间的最短距离。当特征空间为平面时,测地距离为欧氏距离。在非欧几何中,球面上两点间距离最短的线就是连接两点的大弧,球面上的三角形和多边形的边也是由这些大弧构成的。10、布雷柯蒂斯距离(BrayCurtisDistance)布雷柯蒂斯距离主要用于植物学、生态学和环境科学,可用于计算样本间的差异。它的公式是:它的值在[0,1]之间。如果两个矢量坐标均为0,则该值无意义。