当前位置: 首页 > 网络应用技术

数据科学学习数据和抽样分布

时间:2023-03-08 18:36:20 网络应用技术

  本文是作者“数据分析和数据科学”列的第二部分,[列的链接在此](Chu Feimo-Juejin.cn的数据分析和数据科学列)。博客文章的链接在这里](数据科学学习探索数据分析(EDA)-juejin.cn)。我希望本文可以与此列联系,您可以在本列中为所有人提供帮助。本文介绍了数据和采样分发的相关内容。

  大数据的时代是否意味着抽样时代的终结?答案是负面的。实际上,正是由于这个大数据时代,大量具有不同质量和不同相关性的数据具有更大的增强的人对抽样的需求采样可以有效地操作一组数据并最大程度地减少偏差。

  总是想象传统的统计数据始终遵循潜在和未知的分布,它的重点是如何基于强大的假设使用某些理论。现代统计信息将重点转移到采样数据及其经验分布(即注意有效)上我们手中拥有的数据并分析了它。因此,一般而言,数据科学家不必担心整体理论的本质,而应关注采样过程和手中的数据。但是在某些过程中,我们仍然可以通过理解整体理解来获得一些额外的见解。

  总体而言,可以参考大量数据集,也可以指理论或构想的数据集;样本是指大数据集的子集。许多采样方法,所有方法的核心是随机抽样。

  在简单和随机抽样的过程中,从所有可用成员中绘制和获取样品的机会平等。通过随机抽样获得的样本称为简单的随机样本。可以将采样返回,也就是说,观察值可以在每次提取后都可以放回总体上,并且可以通过后续提取重新选择。还可以在没有它的情况下释放采样,也就是说,一旦提取观察值,它将不会参与后续提取。

  层次的采样是基于一个或多个特征首先对整个子属分割,每个孩子称为整体层。然后,从每个层中随机提取子样本。静脉内分层采样,需要给予不同的层以生成等效采样的比例。

  系统采样(也称为均等采样)是一个简单而随机的采样变体。在系统采样中,总数首先编号,并计算了采样距离d = n/n。在公式中,n是记录的总数,n是样本容量。然后,作为样本的第一个记录,在较小的数字中绘制一个随机数,然后取出下一个记录,直到抽奖足以足以获得足够的n记录。

  除了简单的随机抽样,分层采样,系统采样外,通常使用的随机抽样方法,还有采样和多阶段采样方法。我不会介绍太多。

  在正常情况下,数据质量对模型的影响大于数据量表的影响。数据的质量不仅涉及数据的完整性,格式的一致性,格式的完整性和准确性单个数据点。它还涉及样品代表性的概念,然后失去表示整体总体总体的能力,这将导致样品中的样本偏差。但是,即使它是随机的样品,几乎无法准确表达样品。差异是有意义的,样本偏差会发生。

  在在线社交媒体或电子商务平台上,我们经常可以看到有关餐馆,酒店或咖啡馆的一些评论。这些评论容易出现偏差,因为发表评论的人不是随机选择的。写评论的人总是基于基于的。某个起点,这将导致自选的生产bia。大多数发表评论的人都是那些获得不良经历或能在评论中获得福利的人。但是,在比较类似的商人时,尽管选择样本可能无法可靠地表明事物的真实状态,但它们仍然可以用作可靠的基础,因为比较中的双方都具有相同的自我选择偏差。

  统计偏差是一个系统的测量误差或采样错误,是在测量或采样过程中生成的。我们应严格区分由偏差引起的随机选择和错误引起的错误。尽管会有没有偏置过程的错误,但产生错误的错误是随机,不会强烈倾向于朝着一定方向。对于部分过程的结果,不仅有随机的业务旅行,而且还有偏差。有许多形式的偏差,可以观察到或不可见。如果结果是通过参考基准或实际值找到的,则结果确实是偏差的,这通常表明我们指定了不正确的统计信息或机器学习模型,或者缺少重要的变量(功能)。

  选定的偏差是指以一种可能导致误导性或短期结论的方式选择数据的操作,包括自我选择偏差和样本选择偏差。自行选择偏差意味着解释变量不是随机的,但单个选择以及此选择的过程将导致偏见估计主要效果(例如上述)。样本选择偏差意味着样本选择不是随机的,因此样品不能反映整体总体的某些特征偏差。

  如果我们指定一个假设并使用良好的设计实验来验证该假设,从理论上讲,我们可以得到一个高度自信的结论。但是通常情况并非如此。“酷刑”数据可能使我们无法知道数据是否不知道数据是否能够知道数据我们探索是真实的或数据 - 纳普的结果。因为通过实验验证假设获得的现象与通过可用的研究和判断发现的现象之间存在很大差异。

  例如,如果有人说他可以保证自己可以连续扔硬币十次,他确实做到了。然后,我们的第一种感觉是他可能具有一些特殊的特征,因为硬币连续十次,并向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上向上为向上为向上为向上为向上为向上为所带来为所带来所特征所在向上向上向上向上 - foresthe的概率只有大约一个千分之一。但是,如果我们让成千上万的人一起扔硬币十次,那么多人可能会连续多个,而我们不会觉得这不会感到他们有任何特殊能力。这就像运气。

  这是一个称为大规模搜索效果的问题,即我们连续重复的连续数据建模,或者使用大量的预测变量来避免数据建模引起的偏差或非复发性。要避免此问题,我们需要使用验证集来验证结果的性能,即通过使用样品与样品外部的数据获得的结果进行测试。

  注意:数据窥视偏差(参考网站)(https://www.weivol.cn/2018/03/data-snooping-bias/)..cterre nes Inthere nes there恋情,这是财务分析中非常普遍且严重的问题。财务分析,因为我们可以对同一数据集进行无数的实证研究。如果有足够的时间,足够的尝试和足够的想象力,我们可以直接找到财务变量而无需考虑经济理性并直接找到财务变量,以便我们几乎可以从任何数据集中推断出任何法律。数据分析结果更明显地支持我们的立场。这些行为通常使实验无法重复...

  撤退的回报是指连续预测相同变量时发生的现象,即在极端观察值之后,中心的观察值将更多。,结果是99个正向上。这是一个极端的测量值。但是,如果此人继续将其丢弃,则前部和向上概率的概率将继续下降,平均值将为50%。平均收益的重要性主要在金融中,并且没有过多的介绍这里。

  *大法:根据概率收敛。

  在这个大数据时代,有时数据的大小较小,但是越好。它需要更多的努力才能进行抽样,这不仅可以减少偏差,而且还可以使我们更加关注数据探索和数据质量。例如,在丢失的数据和出发值中,可能包括一些有用的信息。找到缺失的值或从数百万记录中评估组值可能很高,但仅对于数千个记录,这些都是完全可行的。

  那么,在什么情况下,我们需要大量数据?

  使用搜索引擎查询检索可以很好地解释大数据的价值。当我们使用搜索引擎进行查询时,其数据量表非常大,有效数据非常稀疏。搜索引擎更好返回有效的搜索结果。积累的数据越多,查询结果就越好。要回报询问的结果可能需要积累数千个相关记录,但是获得此类相关记录可能需要处理数亿个数据。处理此类问题时,随机抽样无效。

  抽样分布是指从总体上提取多个样品时的某些样本统计数据的分布。该样品包含一般丰富的特征。当我们解决不同的问题时,我们需要使用不同的功能。目前,我们需要构建与样品相关的不同功能。样品的不同功能可以反映出整体的不同特征。统计数量的性质和使用一定统计数量的例外取决于其分布。分布是统计学中的重要主题。在数据科学中,只要数据易于获取,我们通常使用尽可能多的数据来计算估计模型或拟合模型,而不是总是从整体中提取更多样品。

  注意:分布单个数据点的分布,数据分布的分布(数据浓度中单个值的频率分布)与样本统计分布和样本分布(一个样本的频率分布多个样品或重型样品中的统计数据非常重要。

  通常,样本统计数据的分布比数据本身的分布更规律。分布的形状往往是正态分布曲线。基于统计数据的样本量越大,这种性质就越明显。此外,样本的尺度越大,样本统计的分布越窄。

  为了简单地理解,中心的核心限制是指样品的统计值的统计值,无论总体分布如何,任何总体样本统计值都将围绕整体统计值,而这将定期分发多个统计数据。它支持假设和置信区间的基本机制,因此它在统计中占有非常重要的位置。但是,在数据科学中,Bootstrap几乎适用于任何情况。由于采用了这种方法,我们很少正式使用假设测试和置信区间,因此中心有限理论不在数据科学实践的中心。

  标准误差是单个变量测量值,总结了单个统计抽样分布的可变性。可以根据样品值S和样品量表N的标准偏差来估算标准误差。该公式基于统计方法。。公式如下:

  $ $标准错误= frac {s} {sqrt n} $ $

  标准误差将随样品的大小而减小。有时,我们说标准误差与样本量表之间的关系是N的平方根规则。如果标准误差减少了一半,则样本量表应为四次。

  标准错误计算公式的合理性来自中央有限理论。实际上,我们不需要依靠中央有限理论来理解标准错误。我们可以通过收集新样本来估算标准错误,但是此方法通常是不可行的,现有的浪费。实际上,我们根本不需要提取新样本,而是使用自助方法进行重型样品。在现代统计学中,自助力方法已成为估计标准的标准方法错误。自助方法几乎适用于几乎所有统计数据,并且不依赖中央有限或其他分布假设。

  注意:像数据分布和采样分布一样,标准偏差和标准误差无法混淆。前者测量了单个数据点的可变性,而后者测量了采样测量的突变。

  有必要估计统计或模型参数的采样分布。一种简单有效的方法是从样本本身中提取更多样品,并为每个重新采样样品重新计算统计或模型。此过程称为bootstrap。自助服务方法不需要假设数据或抽样统计量符合正常状态换句话说,自我服务方法是复制数千次并获取原始样本以获得整体想象力,包括原始样本中的所有信息,但量表更大。总的来说,要估算采样分布。实际上,您不需要多次复制样品,只需将观察值放回整体之后。这种方法有效地创建了无限的一般,并且任何元素的概率每个提取中一个元素的一个元素保持不变。

  自我服务方法也可以用于多个变量数据。目前,该方法将数据行用作采样单元。我们可以在自助服务数据上运行模型,估计模型参数的稳定性或突变或模型的预测能力,例如行李方法(自助方法聚合,包装方法)。这里没有过多的介绍。

  应当指出的是,自助方法不能补偿小规模样本。它不会创建新数据,也不会填补现有数据浓度的空白。它只会告知我们大量其他样本中有很多样本从总体样本中提取的一般样本。

  置信区间可以帮助我们理解样本估计中的潜在误差。单个值的使用估计称为点估计,这很少说服。置信区间是间隔估计,即使使用范围而不是单个值来指示估计数量。对相反字母间隔的相对常见的理解是,在类似的采样过程中,x%置信区间的x%置信区间样本统计数据表明,该间隔在x%的情况下包含相似的样品估计值。

  置信区间给出的百分比称为置信度。置信度越高,置信度越高。此外,样本量越小,不确定性越大,估计测量的可变性越大,并且越大置信区间更大。如果我们想增加对数据的信心,那么我们必须使字母之间的间隔足够宽,以确保捕获真正的价值。换句话说,高度的信心确实可以并不意味着估计预测更准确,而是意味着估计的测量更有可能在自信的间隔中,即越来越大的置信度间隔。我相信本身代表了在间隔中估算范围的可能性。

  对于数据科学家来说,信心是一种了解样本结果可能变化的工具。我们可以通过字母的字母来理解一定估计数量的潜在误差,从而确定是否需要更大的样本。

  钟形的正态分布是传统统计中的标志性概念。由于样本统计的分布通常显示出正态分布的形状,因此这使得正态分布成为数学公式的强大工具,该工具得出了样本统计的近似分布。

  如果随机变量x遵守μ和比例参数的位置参数的概率分布,其概率密度函数为

  $ f(x)= frac {1} {sqrt {2π}} e ^^ { - frac {(x-μ)^2} {2σ^2}}}

  据说该随机变量是一个正常的随机变量,正常随机变量服从的分布称为(一个维度)正态分布。多维(多个)的定义(多重)正态分布相似,并且不再进行介绍可以自行检查正态分布和其他属性的具体简介。

  对正态分布的常见误解是,此分布称为正态分布的原因是,大多数数据都符合正态分布,即数据值是正常的。术语正态分布始于采样分布中的许多统计数据(包括错误)。被用作最后一步。

  平均值和1的标准偏差的平均值称为标准正态分布。在标准正态分布中,X轴的单位是距离平均值的标准偏差。为了将数据与标准正常人进行比较分布,我们需要减去数据值,然后将标准偏差分配。此过程称为归一化或标准化。我们说转换值是z得分,而正态分布有时称为z分布。

  QQ图(分位数定量图)用于确定样品的近似值和正态分布的近似值。QQ图将z分数从低到高的z分数,每个值的z得分在y轴上绘制。X轴是与值正态分布相对应的分离器的数量。由于数据受到调节,因此单位数与数据值和平均值之间的距离相对应。如果数据点通常位于对角线上线,您可以大致认为样品符合正态分布。

  尽管正态分布在统计史上具有非常重要的位置,但数据通常与正态分布一致,这与其名称不太一致。尽管正态分布非常适合错误和样本的分布统计数据,它没有指示原始数据的特征。有时,数据的分布将是高度倾斜的,有时数据的分布将是离散的。对称或不对称分布可能具有很长的尾巴效应。数据分布的尾巴对应于数据中的极点值,即最大值,也对应和最小值。

  纳西姆·塔利布(Nassim Taleb统计项。正常曲线中间的突出部分称为“头”;双方相对较温和的部分称为“尾巴”。从人们的需求的角度来看,大多数需求将集中在头上,我们可以在这部分中被称为流行,并且在尾部分配的需求是个性化的,是个性化的,散落和小。这种差异化的需求将在需求曲线上形成长长的“尾巴”,而SO被称为的长尾巴效应在于其数量。市场仍然很大。

  与我们期望数据达到正态分布的情况相比,我们倾向于观察到某些极值,即,数据在中间是正常的,但是它的尾巴更长。如果只是假定数据符合正态分布,这可能会导致极端事件的误差估计。

  因为在实际工作中,总体差异通常是未知的。我们需要将样品方差用作总方差的估计值。差异存在差异。样本量表越大,TR分布越多,则越多。

  假设x obedient标准正常分布n(0,1),y coled $ chi^2 $(n),然后$ z = frame {x} {sqrt {y/n}} $ $的分布称为自由。n分布n,请记住至$ z?t(n)$。分布密度函数为:

  $ o f_z(x)= frac {gamma(frame {n+1} {2})}} {gamma(frac n 2)sqrt {npi}}(1+frame {x^2} {n} {n} { - { - { -frac {n+1} {2}} $ $

  二项式分布在建模中非常重要,因为它可以代表决策的基本情况。这两个实验是一个实验,有两个可能的结果。结果之一的概率是P,另一个结果的概率为1-P。当测试数n较大并且P不接近0(或1)时,两个分布可以类似地分布。

  通常,如果一个随机变量x遵守测试n的数量,则成功的实验(这里的成功是指一个实验的输出,以使我们对或需要感兴趣)。对于$ x?b(n,p)$,它是对我们感兴趣或所需的)。N检验中K时间成功的概率是由概率质量函数的概率给出的:

  $ p {x = k} = c^k_np^k(1-p)^{n-k} $ o

  这两个项目的平均分布为$ np $,平均值也可以视为N实验期望的期望数。

  两个分布之间的差异为$ NP(1-P)$。如果实验数足够(尤其是当P接近0.5时),两个分布几乎等于正态分布。实际上,因为这两个分布计算大型样本的概率对计算能力有很高的要求,大多数统计程序使用正平均值和方差的正分布来进行近似计算。

  泊松分布是常见的离散概率分布。概率函数是:

  $ p(x = k)= frac {lambda^k} {k!} e^{ - lambda}

  POSON的分布是指单元时间中事件数量的频率分布或单位空间中的事件数量。$ lambda $是指单位时间或单位空间事件的发生率。毒药的期望和差异分布是$ lambda $。当两个项目中的n中的n很大并且p很小时,POSON分布可以用作两个相似的项目,其中$ lambda $是n×P。被许多单元对其进行采样,以告诉我们单位时间或单位空间中事件的分布。

  指数分布是一个连续的概率分布,可用于指示发生独立随机事件的时间间隔。参数$ lambda $与Bo Song相同。如果随机变量x遵守λ参数的索引分布,则为记录为$ x?e(lambda)$,概率密度函数为:

  $ f(x)= lambda {e^{ - lambda x}}}(x> 0)$ $

  在毒药分布或索引分布的模拟研究中,一个关键的假设是,速度$ lambda $在时间周期内保持不变。此外,此假设很少是合理的。一周中的一天或不同的日子。但是,我们可以将时间或空间分为几乎相同的部分,以便我们可以在其中进行分析或模拟。

  在某些情况下,事件的发生率不能随着时间的变化而保持不变。如果事件的变化周期远大于正常情况下事件之间的间隔,则不会出现问题。但是,如果每个间隔的事件发生率将发生变化,则指数分布或松树分布将不再有用。此时。

  Weibull分布是指数分布的扩展。它允许事件的发生率通过指定形状参数$ beta $更改。分布的第二个参数代表特征寿命,也称为比例参数,该参数由$ eta $表示。概率密度函数为:

  $ f(x; eta,beta)= frac {beta} {eta}(frac {x} {eta})^{beta-1} e^{ - (x/eta)^beta}(x> 0)$$

  以上是“数据和采样分布”的所有内容,包括介绍统计抽样和分布的一些基本知识,以及对数据科学中采样方法的简要介绍。如果您对此处描述的相关内容感兴趣文章或想在深度研究中学习的朋友,您可以参考其他博客文章。本文只是简短的介绍和完成。

  最后,我希望本文可以帮助阅读的朋友,请更多地关注。作者将介绍更多有关数据科学的信息,并使用诸如Python之类的语言进行数据分析。