既然您已经阅读了本文,那么您的概率基础知识有100%的机会可以用于机器学习。机器学习就是做出预测。从用多种函数预测房价,到基于单细胞测序判断肿瘤是否恶性。这些预测仅仅是预测——输出的值是从数据中发现的相关性得出的——而不是确定性值或现实世界中发生的事件。因此,我们可以将机器学习视为在给定特定输入或公认的相关性(几乎类似于条件概率P(x|y))的情况下输出最有可能或概率的结果。因此,扎实的概率论知识需要对机器学习的理解更深层次;虽然许多使用机器学习的人只将它用作“黑匣子”(他们不关心模型如何得出预测,只关心预测本身),但其他人关心了解什么是ML模型,它的预测是怎样的产生,并利用对ML模型如何学习的理解来更深入地了解他们正在研究的过程的机制。机器学习中的许多“学习”过程实际上是从概率和概率分布中导出的,因此了解背后的数学这些概念将使我们对机器学习有更深入的了解。在本节中,我将介绍高中水平的统计学——如果你是已经熟悉条件概率和高斯分布的简单版本,您可以继续进行下一部分。想象一下,您正在乘坐飞机,您正在尝试预测飞机在某个特定时间到达目的地的概率。您需要做的第一件事是了解会改变到达时间源的不确定性(波动变量)。一些示例包括:湍流更多空中交通闪电其他恶劣天气意味着您可能无法预测即将到来的空中交通。最后,不完美的建模可能会遗漏大量变量。上面的每个变量都由一个可以有多个值的随机变量表示,每个值都有不同的出现概率。概率密度函数和质量函数分别用于连续函数和离散函数。例如,如果X是特定湍流量的随机变量,则P(X=x)是随机变量X取特定值的概率。认知计算——一项被广泛认为是……最重要体现的技能。作为其用户,我们已经将技术视为理所当然。这几天几乎不再常见......联合概率分布类似于正态分布,除了你现在试图封装两个变量的随机性,所以P(x,y)=P(X=x,Y=y)本质上,这是两个变量取非常特定值的可能性。现在,如果我告诉你坐飞机到达目的地的概率是0.000000001,你不会相信我,但你必须考虑到有足够的燃料可以到达目的地,飞机已经大修过。P(Youwillarriveatyourdestinationontime|加油,修理完成)这叫做条件概率。分布类型Gaussian好吧——现在有很多方法可以用数学方式表示分布。最常见的做法是旋转高斯分布(或正态分布),正态这个名字很合适,因为它是最常用于近似其他分布的分布。您可以使用以下表达式在笛卡尔坐标上绘制方程:Sigma和μ分别代表总体标准差和平均值。想象一下,我们想要同时绘制两个或三个变量的分布。事情很快就会变得疯狂。这就是二维高斯分布的样子。>二维多元高斯分布,其中x1和x2代表tw的值彼此相关。换句话说,回到我们的飞机例子,如果有更多的湍流,是否意味着坏的可能性更大?我们使用协方差矩阵,其中协方差由以下公式表示。本质上,您是将两个随机变量的标准差相乘以查看它们的比例(它们相互依赖的程度)。拉普拉斯分布如果我们把高斯分布和拉普拉斯分布想象成小山丘,那么高斯分布的顶点是光滑的。换句话说,如果你把球放在上面,它会在加速之前开始平稳地滚动。另一方面,拉普拉斯分布的顶部非常陡峭,以至于放在顶部的球会立即开始加速。信息论就是关于一组给定的值和概率捕获了多少信息。例如,如果我告诉你你今天要呼吸,你会感到惊讶吗?可能不会,因为您本周有99.99999%的机会还活着。因此,该信息的信息含量低。另一方面,其他人拥有更高的信息含量——他们的可能性越小,他们拥有的信息就越多。比如我告诉你夏天会下雪,那这个消息的信息量就超高。让我们更正式地定义信息(这在数学上意味着什么)。我们可以通过取特定概率的负对数来计算信息量。现在,夏天实际下雪的可能性非常小(例如,下雪的可能性为0.0001%,不下雪的可能性为99.9999%)。所以我们获得大量信息的机会非常低。>自信息内容方程为了预测包含的平均或预期信息内容,我们从分布中的事件中找到预期信息内容。现在,为什么信息在机器学习中很重要?有时,我们输入一个概率分布并得到另一个输出,两者都是针对同一个随机变量x,我们想看看这些分布有多相似。对于将赋值作为输入的变体自动编码器,尝试在一些潜在变量中编码,然后解构以尝试重新创建原始分布,一定要看看新分布是否比原始分布提供更多或更少的信息。我们可以通过检查新版本是否具有高信息含量来检查模型是否“学到”了任何东西。我们可以用KL(Kullback-Leibler)散度来衡量。>Kuller-Leibler散度结构化概率模型的方程结构化概率模型(具有节点和边)用于表示多个变量之间的相互作用以及与其相关的条件概率。例如,看看下面的结构化概率模型。节点用小写字母表示,有向边表示条件关系。换句话说,c依赖于aonb,因为a和b的箭头指向它。我们可以通过查看每个变量的条件概率的乘积来表示找到所有五个变量的某种组合的概率。“给定”符号右侧的变量代表提供定向箭头的节点。无向模型不需要有向边(带箭头)。他们只是在表示依赖关系的变量之间有一条线。无向模型中的每个团都由相互连接的节点组成。例如,在上图中,a、b和c是cliques。每个集团都有一个与之相关的独特特征,从中可以得出一个因素。就是这样——关于机器学习中的概率你需要知道的一切:)
