当前位置: 首页 > 科技观察

从贝叶斯定理到概率分布:概率论基本定义回顾

时间:2023-03-18 11:14:11 科技观察

本文全面梳理了从最基本的概率论到各种概率分布的概率基础知识和概念。想象。这些概念是数据科学的核心,经常出现在各种主题中。重温基础知识总是有益的,这样我们就可以发现以前不了解的新知识。1.简介在本系列文章中,我想探讨一些统计学中的入门概念,这些概念可能有助于我们理解机器学习或开阔视野。这些概念是数据科学的核心,经常出现在各种主题中。复习一下基础知识总是好的,这样我们就可以发现以前不了解的新事物,所以我们开始吧。***部分将介绍概率论的基础知识。1.概率我们已经有了这么强大的数学工具,为什么还要学习概率论呢?我们使用微积分来处理变化最小的函数,并计算它们的变化。我们使用代数来求解方程,我们还有许多其他数学领域可以帮助我们解决几乎所有可以想象到的难题。困难在于我们都生活在一个混乱的世界中,大多数时候事物都无法准确测量。当我们研究现实世界的过程时,我们想要了解影响实验结果的许多随机事件。不确定性无处不在,我们必须驯服它以满足我们的需要。只有这样,概率论和统计学才能发挥作用。这些学科如今是人工智能、粒子物理学、社会科学、生物信息学和日常生活的中心。如果我们要谈论统计,??让我们首先定义什么是概率。事实上,这个问题没有绝对的答案。接下来我们详细阐述概率论的各个观点。2.频率假设我们有一枚硬币,想要验证抛掷后正面和反面的频率是否相同。我们如何解决这个问题?让我们尝试进行一些实验,如果硬币正面朝上,我们记录1,如果反面朝上,则记录0。重复抛1000次,记录0和1的个数。在我们进行了一些繁琐的计时实验之后,我们得到了这些结果:600个正面(1)和400个反面(0)。如果我们计算过去正面和反面的频率,我们将分别得到60%和40%。这些频率可以解释为硬币出现正面或反面的概率。这称为频繁概率。3.条件概率通常,我们想知道当其他事件同时发生时某些事件发生的概率。我们将事件B发生时事件A发生的条件概率写为P(A|B)。我们以下雨为例:打雷时下雨的概率是多少?下雨了(当然,这不完全正确,但我们在这个例子中保证)。什么是P(雨|晴)?从直觉上看,这个概率很小,但是我们怎样才能在数学上做出这个精确的计算呢?条件概率定义为:换句话说,我们将Rain和Sunny的概率除以Sunny的概率。4.相关事件与独立事件如果一个事件的概率不会以任何方式影响另一个事件,则称该事件是独立的。考虑掷骰子并连续获得两个2的概率。这些事件是独立的。我们可以这样表述,但为什么这个公式有效呢?首先,我们将第一次和第二次throw的事件重命名为A和B以消除语义影响,然后我们看到两次throw的并集作为Probability被显式地重写为两次throw的单独概率的乘积:现在相乘P(A)乘以P(B)(不变,可以取消),再回顾一下条件概率的定义:如果我们从右往左读上面的等式,我们会发现P(A|B)=P(A).这意味着事件A独立于事件B!P(B)也是一样,独立事件的解释就是这样。5.贝叶斯概率论贝叶斯可以作为理解概率的另一种方式。频率派方法假设存在我们正在寻找的模型参数的特定组合。另一方面,贝叶斯以概率方式处理参数并将它们视为随机变量。在贝叶斯统计中,每个参数都有自己的概率分布,这告诉我们现有数据有很多可能的参数。在数学上可以这样写,这一切都始于一个简单的定理,该定理允许我们根据先验知识计算条件概率:尽管它很简单,但贝叶斯定理具有巨大的价值、广泛的应用,甚至是贝叶斯统计学的一个特殊分支.有一篇关于贝叶斯定理的非常棒的博文,如果您对贝叶斯推导感兴趣——它并不难。6.抽样和统计假设我们正在研究人类的身高分布,并且急于发表一篇激动人心的科学论文。我们在街上测量了一些陌生人的身高,所以我们的测量是独立的。我们从真实人群中随机选择数据子集的过程称为抽样。统计是用来总结采样值数据规律性的函数。您可能见过的一个统计数据是样本均值:另一个示例是样本方差:该公式表示所有数据点偏离均值的程度。2.分布什么是概率分布?这是一条以数学函数的形式告诉我们在某些实验中不同可能结果的概率的定律。对于每个函数,分布可能有一些参数来调整其行为。当我们计算抛硬币事件的相对频率时,我们实际上是在计算所谓的经验概率分布。事实证明,世界上许多不确定的过程都可以用概率分布来表示。例如,我们的投币结果是伯努利分布,如果我们想计算一枚投币n次出现正面朝上的概率,我们可以使用二项分布。引入一个类似于概率环境中变量的概念——随机变量就方便多了。每个随机变量都有一定的分布。随机变量默认用大写字母表示,我们可以使用~符号为变量分配分布。上式表示随机变量X服从伯努利分布,成功率(抬头)为0.6。1.连续概率分布和离散概率分布概率分布可分为两类:离散分布用于处理具有有限值的随机变量,如抛硬币和伯努利分布。离散分布由所谓的概率质量函数(PMF)定义,连续分布用于处理具有最大数量值的连续(理论上)随机变量。想想用声音传感器测量的速度和加速度。连续分布由概率密度函数(PDF)定义。这两种分布类型在数学处理上有所不同:通常连续分布使用积分∫而离散分布使用总和Σ。以期望值为例:下面我们将详细介绍各种常见的概率分布类型。如上所述,概率分布可以分为离散随机变量分布和连续随机变量分布。常见的离散型随机变量分布有伯努利分布、二项分布、泊松分布等,而常见的连续型随机变量分布有均匀分布、指数分布、正态分布等。3.常见的数据类型在讲解各种分布之前,先来看看在常见的数据类型。数据类型可以分为离散型和连续型。离散数据:数据只能取特定的值。例如,当您掷骰子时,可能的结果只有1、2、3、4、5、6而不是1.5或2.45。连续数据:数据可以取给定范围内的任意值,可以是有限的也可以是绝对的,比如女孩的体重或身高,或者一条路的长度。一个女孩的体重可以达到54公斤、54.5公斤或54.5436公斤。四、分布的种类1、伯努利分布最简单的离散随机变量分布是伯努利分布,我们将从这里开始讨论。伯努利分布只有两种可能的结果,表示为1(成功)和0(失败),并且只有一次伯努利试验。设置一个服从伯努利分布的随机变量X。如果值为1,则成功的概率为p,如果值为0,则失败的概率为q或1-p。如果随机变量X服从伯努利分布,则概率函数为:成功和失败的概率不一定相等。比如我和一个运动员打架,他赢的几率应该更大。这时候我成功的概率是0.15,而失败的概率是0.85。下图显示了我们战斗的伯努利分布。正如您在上图中看到的,我的成功概率=0.15,失败概率=0.85。期望值是指概率分布的平均值。对于一个随机变量X,对应的期望值为:E(X)=1*p+0*(1-p)=p,方差为V(X)=E(X^2)–[E(X)]^2=p–p^2=p(1-p)其实伯努利分布的例子有很多,比如明天是晴天还是雨天。某队输或赢等。2.二项式分布现在回到抛硬币的情况,当第一次抛完后,我们可以再抛一次,即有多次伯努利试验。第一次积极并不代表以后一定会积极。然后让我们有一个随机变量X代表我们翻转的正面数量。X可以取哪些可能的值?任何非负整数,不超过抛硬币的总数。如果有一组相同的随机事件,即一组伯努利试验,在上面的例子中,连续抛多次硬币。那么一个随机事件发生的次数,即概率,服从二项分布,也称为多重伯努利分布。任何一个测试都是相互独立的,之前的测试不会影响当前测试的结果。将具有相同结果概率的两个试验重复n次的试验称为多重伯努利试验。二项分布的参数为n和p,其中n是试验总数,p是每次试验的成功概率。根据以上,二项分布的性质是:每次试验都是独立的;只有两种可能的结果;n进行了相同的试验;所有试验的成功率都是一样的,失败的概率也是一样的。二项分布的数学表达式为:成功概率和失败概率不等的二项分布如下图所示:而成功概率和失败概率相等的二项分布如下图所示:二项分布的值表示为μ=n*p,而方差可以表示为Var(X)=n*p*q??。3.泊松分布如果你在呼叫中心工作,你一天会接到多少个电话?越多越好!可以使用泊松分布对呼叫中心一天可以接听多少个电话进行建模。这里有几个例子:医院一天接到的急救电话的数量;一个地方一天内收到的盗窃报告数量;一小时内光顾沙龙的人数;特定城市报告的自杀人数;打印错误的数量。现在您可以用相同的方式构建许多其他示例。泊松分布适用于事件发生的时间和地点随机分布的情况,我们只对事件发生的次数感兴趣。泊松分布的主要特点如下:任何成功的事件不能影响其他成功的事件;短时间间隔后成功的概率必须等于长时间间隔后成功的概率;当时间间隔趋于无穷小时,一个时间间隔内成功的概率成功的概率趋近于零。泊松分布中定义的符号是:λ是事件的发生率;t是事件间隔的长度;X是时间间隔内事件发生的次数。假设X是泊松随机变量,则X的概率分布称为泊松分布。用μ表示时间间隔t内平均发生的事件数,则μ=λ*t;X的概率分布函数为:泊松分布的概率分布如下图,其中μ为泊松分布的参数:下图显示了分布曲线如何随着均值的增加而变化:如上图所示,曲线随着均值的增加向右移动。泊松分布的均值和方差为:均值:E(X)=μ方差:Var(X)=μ4。均匀分布假设我们有等概率在a到b等间距的线段上选择一个区间,则概率均匀分布在整个区间[a,b]上,概率密度函数不会随着变量改变。均匀分布不同于伯努利分布。随机变量的取值是等概率的,所以概率密度可以表示为区间长度的二分之一。如果我们取随机变量可能取值的一半,那么它出现的概率就是1/2。假设随机变量X服从均匀分布,则概率密度函数为:均匀分布曲线如下图,其中概率密度曲线下的面积为随机变量出现的概率:我们可以看出均匀分布的概率分布以矩形表示,这就是均匀分布又称为矩形分布的原因。在均匀分布中,a和b都是参数,即随机变量的取值范围。服从均匀分布的随机变量X也具有均值和方差。它的均值是E(X)=(a+b)/2,它的方差是V(X)=(b-a)^2/12标准均匀分布的密度函数参数a取值0,b取值1,所以标准均匀分布的概率密度可以表示为指数分布,因为指数分布可以模拟电话通话的时间间隔。其他示例可能包括地铁到达时间和空调设备循环的建模。在深度学习中,我们经常需要一个在x=0处取尖点的分布。为此,我们可以使用指数分布:指数分布使用一个指标函数1x≥0,这样当x取负值时概率为零。其中λ>0是概率密度函数的一个参数。一个随机变量X服从指数分布,那么变量的均值可以表示为E(X)=1/λ,方差可以表示为Var(X)=(1/λ)^2。如下图所示,λ越大,指数分布的曲线下降得越多,λ越小,曲线越平坦。如下图所示:下面是一个简单的由指数分布函数导出的表达式:P{X≤x}=1–exp(-λx),对应于密度函数曲线下小于x的面积。P{X>x}=exp(-λx),表示概率密度函数曲线下大于x的面积。P{x1