当前位置: 首页 > 科技观察

进入数据科学坑需要什么样的数学水平?

时间:2023-03-22 11:35:48 科技观察

作为一门基础学科,数学在数据科学和机器学习中都扮演着不可或缺的角色。数学基础是理解各种算法的前提,也有助于我们更透彻地理解算法的内在原理。因此,本文作者解释了为什么数据科学和机器学习离不开数学,并提供了统计和概率论、多元微积分、线性代数和优化数学四个分支中需要熟悉的一些数学概念方法。本文由博士撰写。BenjaminObiTayo,物理学家、数据科学教育家和作家,其研究兴趣在于数据科学、机器学习、人工智能、Python和R语言、预测分析、材料科学和生物物理学。这篇文章由BenjaminObiTayo撰写。数据科学和机器学习都离不开数学如果你是数据科学爱好者,你可能会有以下两个问题:我几乎没有数学背景,我能成为数据科学家吗?哪些基本数学技能在数据科学中非常重要什么重要?我们都知道数据科学离不开各种扩展包。此外,现在有许多功能强大的软件包可用于构建预测模型或生成可视化数据。下面列出了一些最常见的描述性和预测性分析包:Ggplot2MatplotlibSeabornScikit-learnCaretTensorFlowPyTorchKeras得益于这些扩展,任何人都可以构建模型或生成数据可视化。但与此同时,必须具有强大的数学背景才能优化模型以产生性能最佳的可靠模型。也就是说,建立模型只是一方面。另一方面,需要对模型进行解释并得出有意义的结论,从而做出更好的数据驱动决策。最后,在使用这些包之前,你需要了解每个包背后的数学基础,这样你才不会仅仅把这些包当作黑盒工具(black-boxtool)。案例研究:建立一个多元回归模型假设我们要建立一个多元回归模型,那么我们需要提前问自己几个问题:数据集有多大?什么是特征变量和目标变量?哪些预测特征与目标变量最相关?哪些功能更重要?是否应该扩展功能?数据集应该如何划分训练集和测试集?什么是主成分分析(PCA)?是否应使用PCA去除冗余特征?如何评估模型?使用R2值,MSE还是MAE?如何提高模型的预测能力?是否使用正则化回归模型?什么是回归系数?支持向量回归)?模型中的超参数是什么?如何调整超参数以获得最佳模型性能?显然,没有良好的数学背景,你将无法解决上述问题。因此,在数据科学和机器学习中,数学技能与编程技能一样重要,这一点至关重要。作为数据科学的倡导者,有必要投入时间学习数据科学和机器学习的理论和数学基础。可以毫不夸张地说,能否建立可靠有效的模型来解决现实世界的问题,还取决于你的数学技能有多好。让我们讨论一些数据科学和机器学习中必要的数学技能。数据科学和机器学习所需的数学技能数学是无所不包的,任何人都不可能掌握。因此,在数据科学和机器学习研究中,我们可以根据自己的具体领域、手头的具体工作或使用的具体算法,着重学习相应的数学技能。1.统计与概率论统计与概率论可用于变量可视化、数据预处理、特征变换、数据插补、降维、特征工程与模型评估等,这里介绍一些需要熟悉的统计与概率概念:,中位数,众数,标准差/方差;相关系数和协方差矩阵、概率分布(二项分布、泊松分布和正态分布);p值、贝叶斯定理(精确率、召回率、阳性预测值、阴性预测值、混淆矩阵和ROC曲线)、中心极限定理;R_2值、均方误差(MSE)、A/B测试、蒙特卡洛模拟。2.多变量微积分大多数机器学习模型都是使用包含多个特征或预测变量的数据集构建的。因此,熟悉多元微积分对于构建机器学习模型非常重要。以下是您需要熟悉的多元微积分数学概念:多元函数、导数和梯度、阶跃函数;Sigmoid、Logit、ReLU、损失函数;绘制函数、函数最小值和最大值。3.线性代数线性代数是机器学习中最重要的数学技能。数据集可以表示为矩阵。线性代数可用于数据预处理、数据转换、降维和模型评估。下面是你需要熟悉的线性代数概念:向量,向量范数;矩阵、矩阵转置、矩阵逆、矩阵行列式、矩阵迹、点积、特征值、特征向量。4.优化方法大多数机器学习算法通过最小化目标函数来执行预测建模。以下是您需要熟悉的优化数学概念:损失/目标函数、似然函数、误差函数、梯度下降算法及其变体。简而言之,作为一名数据科学倡导者,应该始终牢记理论基础对于构建有效和可靠的模型至关重要。因此,你应该投入足够的时间来研究每种机器学习算法背后的数学理论。原文链接:https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19【本文为专栏《HeartoftheMachine》,微信公众号“机器之心(id:almosthuman2014)”]点此查看该作者更多好文