数学就像章鱼,它的“触角”几乎可以触及所有学科。虽然有些学科只触及数学的边缘,但有些学科却被数学的“触角”紧紧缠住。数据科学属于后一类。如果你想从事数据科学工作,你必须解决数学问题。如果您获得了数学学位或其他强调数学技能的学位,您可能想知道您所学的所有这些知识是否都是必要的。如果您没有相关背景,您可能会想:从事数据科学工作需要多少数学知识?在本文中,我们将探讨数据科学的含义并讨论我们真正需要多少数学知识。让我们从“数据科学”的实际含义开始。对数据科学的理解是一件“仁者见仁智者见智”的事情!在Dataquest,我们将数据科学定义为:使用数据和高级统计数据进行预测的学科。这是一门专门学科,专注于理解有时混乱和不一致的数据(尽管数据科学家解决的问题因人而异)。统计学是我们在此定义中提到的唯一数学学科,但数据科学通常也涉及数学的其他领域。学习统计学是一个很好的起点,但数据科学也使用算法进行预测。这些算法称为机器学习算法,数量有数百种。深入研究每种算法需要多少数学知识超出了本文的范围。本文讨论了以下常见算法所需的数学:朴素贝叶斯线性回归逻辑逻辑回归K-均值聚类决策树现在让我们看看每个算法实际上需要哪些数学!朴素贝叶斯分类器的定义:朴素贝叶斯分类器是一组基于特定特征值独立于任何其他特征值的相同原理的算法。朴素贝叶斯允许我们根据我们对事件条件的了解来预测事件的概率。这个名字来自贝叶斯定理,它在数学上表述如下:其中有一个事件A和一个事件B,并且P(B)不等于0。这看起来很复杂,但我们可以将其分解为三个部分:P(A|B)是条件概率。也就是说,给定事件B的发生,事件A发生的概率。P(B|A)也是一个条件概率。即,给定事件A的发生,事件B发生的概率。P(A)和P(B)是事件A和事件B各自独立发生的概率。所需的数学知识:如果您想了解朴素贝叶斯分类器算法的基础知识以及贝叶斯定理的所有用途,概率论课程就足够了。线性回归定义:线性回归是最基本的回归类型。它有助于我们理解两个连续变量之间的关系。简单线性回归就是获取一组数据点并绘制可用于预测未来的趋势线。线性回归是参数机器学习的一个例子。在参数机器学习中,训练过程将机器学习算法转化为适合训练集中发现的模式的数学函数。这个数学函数可以用来预测未来的结果。在机器学习中,数学函数称为模型。在线性回归的情况下,模型可以表示为:其中a_1,a_2,...,a_n代表数据集的具体参数值,x_1,x_2,...,x_n代表我们的特征列选择在最终模型中使用,y代表目标列。线性回归的目标是找到描述特征列和目标列之间关系的最佳参数值。换句话说,找到最适合数据的直线,以便可以根据直线的趋势预测未来的结果。为了找到线性回归模型的最佳参数,我们希望最小化模型的残差平方和。残差通常也称为误差,用于描述预测值和真实值之间的差异。残差平方和的公式可以表示为:其中y^是目标列的预测值,y是真实值。所需的数学知识:如果你只是想简单地了解线性回归,请学习基础统计课程。如果你想深入了解这个概念,你可能需要知道如何推导残差平方和的公式,这在大多数高级统计课程中都有介绍。逻辑回归定义:逻辑回归侧重于在因变量取二元值(即只有两个值,0和1代表输出)时估计事件发生的概率。与线性回归一样,逻辑回归是参数机器学习的一个例子。因此,这些机器学习算法的训练结果是最接近训练集中模式的数学函数。区别在于线性回归模型输出实数,而逻辑回归模型输出概率值。正如线性回归算法产生线性函数模型一样,逻辑回归算法产生逻辑函数模型。也称为sigmoid函数,它将所有输入值映射到0到1之间的概率结果。sigmoid函数可以表示如下:那么为什么sigmoid函数总是返回0到1之间的值呢?请记住,代数中任何数的负幂等于该数的正幂的倒数。所需数学知识:我们在这里讨论了指数和概率,您需要对代数和概率有扎实的了解才能理解Logistic算法的工作原理。如果你想更深入地理解这些概念,我建议你学习概率论以及离散数学或实数分析。K-Means聚类定义:K-Means聚类算法是一种无监督机器学习,用于对未标记数据(即没有定义的类别或分组)进行分类。该算法通过发现数据中的聚类来工作,其中聚类的数量用k表示。然后执行迭代,根据特征将每个数据点分配给k个集群之一。K均值聚类依赖于贯穿整个算法的距离概念,将数据点“分配”到不同的聚类中。距离的概念是指两个给定项目之间的空间量。在数学中,描述集合中任意两个元素之间距离的函数称为距离函数或度量。常用的有两种类型:欧氏距离和曼哈顿距离。欧氏距离的标准定义如下:其中(x1,y1)和(x2,y2)是笛卡尔平面上的坐标点。欧几里德距离虽然有广泛的应用,但在某些情况下是行不通的。假设你正走在一个大城市里;如果有一座巨大的建筑物挡住了您的路线,那么说“我离目的地有6.5个单位”是没有意义的。为了解决这个问题,我们可以使用曼哈顿距离。曼哈顿距离公式如下:其中(x1,y1)和(x2,y2)是笛卡尔平面上的坐标点。所需数学知识:您真的只需要知道加法和减法,并了解代数的基础知识即可掌握距离公式。但是为了深入了解每个度量所包含的基本几何类型,我建议学习几何,其中包括欧几里德几何和非欧几里德几何。为了更深入地了解度量和度量空间的含义,我阅读了数学分析并参加了实数分析课程。决策树定义:决策树是一种类似于流程图的树结构,它使用分支方法来说明决策的每个可能结果。树中的每个节点代表对特定变量的测试,每个分支都是该测试的结果。决策树依靠信息论理论来确定它们的构建方式。在信息论中,人们对一个事件了解得越多,他们从中学到的新信息就越少。信息论的关键指标之一称为熵。熵是量化给定变量中不确定性量的度量。熵可以表示为:上式中,P(x_i)为随机事件x_i发生的概率。对数的底数b可以是任何大于0的实数;基数的常见取值有2、e(2.71)、10。像“S”这样花哨的符号是求和符号,即求和符号以外的函数可以连续相加,相加的次数取决于较低的和总和的上限。计算出熵后,我们就可以开始构造决策树了,利用信息增益来判断哪种分裂方式最能减少熵。信息增益的公式如下:信息增益可以衡量信息量,即获得了多少“比特”的信息。在决策树的情况下,我们可以计算数据集中每一列的信息增益,以便找到哪一列将为我们提供最多的信息增益,然后在该列上进行拆分。所需的数学知识:基本的代数和概率知识是对决策树的基本理解所需要的。如果您想对概率和对数有深入的概念性理解,我建议您学习概率论和代数课程。最后的想法如果你还在上学,我强烈建议你学习一些纯数学和应用数学课程。有时它们确实让人望而生畏,但令人欣慰的是,当您遇到这些算法并知道如何最好地使用它们时,您将获得更大的权力。如果你目前不在学校,我建议你去最近的书店阅读本文提到的相关书籍。如果你能找到涵盖概率论、统计学和线性代数的书籍,我强烈建议你选择涵盖这些主题的书籍,以真正理解本文涵盖和未涵盖的机器学习算法背后的原理。原文链接:https://www.dataquest.io/blog/math-in-data-science/【本文为《机器之心》专栏原文翻译,微信公众号《机器之心》(id:almosthuman2014)》】点此阅读该作者更多好文
