干货:数据科学中如何正确学习PythonPython编程迷题.他们认为,在开始使用Python分析数据之前,必须熟悉编程概念。高级数据分析师ManuJeevan认为这是一个巨大的错误,因为数据科学家使用Python来检索、清理、可视化和构建数据模型,而不是开发软件应用程序。事实上,为了完成这些任务,你不得不将大部分时间集中在学习python中的模块和库上。他认为学习数据科学的正确姿势应该是这样的。按照以下步骤学习用于数据科学的Python。配置编程环境JupyterNotebook是用于开发和展示数据科学项目的强大编程环境。在计算机上安装JupyterNotebook的最简单方法是通过Anaconda。Anaconda是数据科学中使用最广泛的Python工具,它预装了所有最流行的库。您可以在标题为“使用AnacondaDistribution安装JupyterNotebook的新手指南”的博文中了解如何安装Anaconda。安装Anaconda时,选择最新的python3版本。安装Anaconda后,请阅读这篇代码学院文章,了解如何使用JupyterNotebook。只需学习Python的基础知识CodeAcademy有一个很棒的Python课程,大约需要20个小时才能完成。您不必升级到专业版,因为您的目标只是熟悉python编程语言的基础知识。NumPy和Pandas,很好的学习资源Python在处理计算密集型算法和大量数据时速度很慢。那么,您可能会问,为什么Python是数据科学领域最流行的编程语言?答案是在Python中很容易以C或Fortran扩展的形式将数字运算任务卸载到底层。这正是NumPy和Pandas所做的。首先,你应该学习NumPy。它是Python中科学计算最基本的模块。NumPy支持高度优化的多维数组,这是大多数机器学习算法最基本的数据结构。接下来,您应该学习Pandas。数据科学家将大部分时间花在清理数据上,这也称为数据清理。Pandas是用于处理数据的最流行的Python库。Pandas是NumPy的扩展。Pandas的底层代码大量使用了NumPy库。Pandas中的主要数据结构称为DataFrame。熊猫的创造者WesMcKinney写了一本很棒的书,名叫《Python for Data Analysis》。您可以在本书的第4、5、7、8和10章中了解Pandas和NumPy。这些章节涵盖了处理数据时最常用的NumPy和Pandas功能。学习使用Matplotlib可视化数据Matplotlib是用于创建基本图形可视化的基本python包。您必须学习如何使用Matplotlib创建一些最常见的图表,例如折线图、条形图、散点图、直方图和箱线图。另一个建立在Matplotlib之上并与Pandas紧密集成的优秀绘图库是Seaborn。在这个阶段,我建议您快速学习如何在Matplotlib中创建基本图表,而不是专注于Seaborn。我写了一个由四部分组成的教程,介绍如何使用Matplotlib绘制基本图。第1部分:使用Matplotlib绘制基本图形第2部分:如何控制图形的样式和颜色,例如标记、线条粗细、线条图案以及使用颜色图第3部分:注释、控制轴范围、纵横比和坐标系第3部分4:处理复杂图形您可以通过这些教程掌握Matplotlib的基础知识。简而言之,您不必花太多时间学习Matplotlib,因为公司已经在采用Tableau和Qlik等工具来创建交互式可视化。如何使用SQL和Python组织驻留在数据库中的数据。因此,您需要知道如何使用SQL检索数据并使用python在JupyterNotebook中进行分析。数据科学家使用SQL和Pandas来操作数据。有一些数据操作任务可以使用SQL轻松执行,还有一些任务可以使用Pandas高效完成。我个人喜欢使用SQL来检索数据并在Pandas中对其进行操作。如今,公司使用ModeAnalytics和Databricks等分析平台来轻松使用Python和SQL。所以,你应该知道如何有效地结合使用SQL和Python。要了解这一点,您可以在计算机上安装一个SQLite数据库,在其中存储一个CSV文件,然后使用python和SQL对其进行分析。这是一篇很棒的博客文章,向您展示了如何执行此操作:使用SQLite在Python中使用数据库编程。在阅读上面的博文之前,您应该了解SQL的基础知识。ModeAnalytics有一个很好的SQL教程:SQL简介。通过他们的BasicSQL部分,学习SQL的基础知识,每个数据科学家都应该知道如何使用SQL有效地检索数据。使用Python学习基本统计大多数有抱负的数据科学家在没有学习统计基础知识的情况下直接进入机器学习。不要犯这个错误,因为统计学是数据科学的支柱。而且,很多数据科学家学习统计学只是为了学习理论概念,而不是学习实践概念。我的意思是,通过练习概念,你应该知道统计可以解决什么样的问题,理解统计可以解决哪些挑战。以下是您应该了解的一些基本统计概念:抽样、频率分布、均值、中位数、众数、变异性度量、概率基础知识、显着性检验、标准差、z分数、置信区间和假设检验(包括A/B测试)。要学习这些东西,有一本好书可以读:《Practical Statistics for Data Scientists: 50 Essential Concepts》。不幸的是,本书中的代码示例是用R语言编写的,但包括我在内的许多人都使用Python。我建议您阅读本书的前四章。阅读本书的前4章以了解我前面提到的基本统计概念,您可以忽略代码示例而只了解这些概念。本书的其余部分主要关注机器学习。我将在下一部分讨论如何学习机器学习。大多数人推荐使用ThinkStats在python中学习统计,但本书的作者教授他自己的自定义函数,而不是使用标准python库进行统计教学。因此,我不推荐这本书。接下来,您的目标是实现在Python中学到的基本概念。StatsModels是一个流行的python库,用于在python中构建统计模型。StatsModels网站提供了一个关于如何使用Python实现统计概念的优秀教程。或者,您也可以观看Ga?lVaroquaux的视频。他向您展示了如何使用Pandas和统计模型进行推理和探索性统计。使用Scikit-Learn进行机器学习Scikit-Learn是Python中最受欢迎的机器学习库之一。您的目标是学习如何使用ScikitLearn实现一些最常见的机器学习算法。你应该像下面那样做。首先,请观看AndrewNg在Coursera上的机器学习课程第1、2、3、6、7和8周的视频。我跳过了有关神经网络的部分,因为作为初学者,您必须专注于最通用的机器学习技术。完成后,阅读“使用Scikit-Learn和TensorFlow进行机器学习实践”一书。你只需要浏览本书的第一部分(约300页),它是最实用的机器学习书籍之一。通过完成本书中的编码练习,您将学习如何使用Python来实现您在吴恩达课程中学到的理论概念。结论最后一步是做一个涵盖上述所有步骤的数据科学项目。您可以找到喜欢的数据集,提出有趣的业务问题,然后通过分析回答这些问题。但是,请不要选择像Titanic这样的通用数据集。另一种方法是将数据科学应用到您感兴趣的领域。例如,如果你想预测股市价格,那么你可以从雅虎财经获取实时数据,将其存储在SQL数据库中,然后使用机器学习来预测股票价格。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。
