本文转载自公众号《阅读芯》(ID:AI_Discovery)很多人听到“数据科学”这个词,首先想到的是“机器学习”。当我第一次遇到机器学习这个听起来很酷的概念时,我也对数据科学产生了兴趣。所以当我在寻找学习数据科学的切入点时,我也受到了它的影响。这是我犯过的最大错误,也是本文的要点:如果你想成为一名数据科学家,不要从机器学习开始。显然,要成为一名“真正全能”的数据科学家,最终必须掌握机器学习的概念。但是你会惊讶于没有它你能走多远。为什么不从机器学习开始呢?1.机器学习只是数据科学的一小部分。数据科学和机器学习就像图中所示的矩形和正方形。机器学习是数据科学的一部分,但数据科学不一定是机器学习,就像正方形是长方形的一种,但长方形不一定是正方形。事实上,机器学习建模只占数据科学家工作的5-10%,剩下的大部分时间基本都花在了其他地方。如果您从一开始就全身心投入到机器学习中,您将花费大量的时间和精力,但收效甚微。2.要想完全理解机器学习,首先需要掌握其他几个学科的基础知识。机器学习的核心是建立在统计学、数学和概率的基础上。在学习机器学习之前,首先要掌握基础理论知识,打好扎实的理论基础。例如:线性回归是大多数训练营教授的第一个“机器学习算法”,但它实际上是一种统计方法。主成分分析的前提是学习矩阵和特征向量(线性代数)的概念。朴素贝叶斯是一种完全基于贝叶斯定理(概率)的机器学习模型。所以,归结为两点:一是学习基础知识更容易学习更高级的内容,二是通过学习基础知识,可以掌握多种机器学习概念。3.机器学习并不能解决所有问题。许多数据科学家为此苦苦挣扎,包括我自己。与我最初的想法一致,大多数数据科学家认为“数据科学”和“机器学习”相辅相成,密不可分。因此,每当数据科学家遇到问题时,他或她首先会考虑机器学习模型作为解决方案。但并非所有数据科学问题都需要机器学习模型。在某些情况下,使用Excel或Pandas进行简单分析就足以解决手头的问题。在其他情况下,问题可能与机器学习完全无关。它可能完全是关于使用脚本清理和操作数据、构建数据管道或创建交互式仪表板——所有这些都没有机器学习。你应该怎么做?如上所述,学习基础知识将更容易学习更高级的内容并掌握多个机器学习概念。我知道,如果你正在学习统计、数学或编程基础知识,你可能会觉得自己在成为“数据科学家”的道路上没有进步,但学习这些基础知识肯定对你以后的学习有用。如果你现在想开始一些具体的行动,你可以参考以下步骤:从统计开始。在数学、统计学和编程基础这三个组成部分中,我个人认为统计学是最重要的部分。如果您害怕学习统计学,那么数据科学可能不适合您。我推荐观看佐治亚理工学院的课程《统计方法》(统计方法),或者可汗学院的视频系列。学习Python和SQL。个人工作中没有用过R语言,所以对R没有太大的看法。如果你是R型人才,建议试试Python和SQL。您使用Python和SQL的能力越强,在数据收集、操作和实施方面就越容易。此外,熟悉Pandas、NumPy、Scijit-learn等Python库也是不错的选择。并且因为二叉树是很多高级机器学习算法(比如XGBoost)的基础,所以也推荐大家学习。学习线性代数的基础知识。在处理与矩阵有关的任何事情时,线性代数变得极其重要。这在推荐系统和深度学习应用程序中很常见。学习数据操作。数据操作至少占数据科学家工作的50%。更具体地说,了解有关特征工程、探索性数据分析和数据准备的更多信息。我的一般建议是,专注于机器学习是不可取的,因为它很浪费时间,不会帮助你在工作中成为一名成功的数据科学家。不过需要注意的是,这是一篇个人观点非常强烈的文章,所以见仁见智,受益匪浅。
