当前位置: 首页 > 后端技术 > Python

学习Python数据分析的正确姿势

时间:2023-03-26 00:29:43 Python

原作者:ManuJeevan原文地址:HowtoLearnPythonforDataSciencetheRightWay通过参加为程序员设计的Python课程来学习Python数据分析将是一个很大的错误。很多数据分析师在开始学习Python数据分析之前,都是在LeetCode上被引导学习程序员的编程难题。这对于只需要提取、清理数据、绘制可视化和构建模型的数据分析师来说确实是一种误导。数据分析师需要学习的不是开发应用软件,而是花时间和精力学习处理数据模块和支持库。按照以下步骤逐步学习Python数据科学。配置开发环境JupyterNotebook是一个非常强大的开发环境,非常适合展示数据分析的结果。Anaconda是安装JupyterNotebook的最简单方法,JupyterNotebook是最流行的Python数据科学发行版,预装了许多最流行的支持库。安装Anaconda时建议选择支持最新版Python3的版本。安装Anaconda后,阅读本文以了解如何使用JupyterNotebook。鸟鸟云:你也可以参考DataCamp的JupyterNotebook备忘单,点击链接下载鸟鸟为你精心打造的高清中文版!学习Python的一些基础知识就足够了。参考DataCamp的PythonDataScienceCheatSheet快速掌握Python的基础知识。如果你想学习更多的Python基础知识,我推荐阅读《Python基础教程(第3版)》。Numpy和pandas是数据分析师需要学习的。Python处理大规模数据,执行数字运算算法实际上非常慢。听到这里,你可能会问,为什么说Python是最流行的数据分析编程语言呢?这是因为Python有基于C和Fortran开发的支持库,就是接下来要说的Numpy和Pandas。数据分析师首先要学习的是Numpy。这是Python数据科学计算中最基础的支撑库。Numpy支持高度优化的多维数组,这是大多数机器学习算法中最基本的数据结构。接下来要学习的是Pandas,知道数据分析师的大部分时间都花在了清洗数据上。Pandas是最受欢迎的数据处理支持库。它是Numpy的扩展,其底层代码是基于Numpy开发的。Pandas的主要数据结构称为DataFrame。Pandas的作者WesMcKinney编着的《利用 Python 进行数据分析》一书,是学习Pandas最好的资源。本书第4、5、7、8、10章主要介绍了Numpy和Pandas,涵盖了这两个支持库的操作。数据的大部分特征。鸟鸟云:这里推荐看肖恩的译本《利用Python进行数据分析·第2版》。如果想快速了解,也可以参考DataCamp的NumpyandPandascheatsheet。点击链接下载喵喵为你精心打造的高清中文版!学习使用Matplotlib绘制可视化效果Matplotlib是一个用于绘制基本可视化效果的Python支持库。数据分析师至少要掌握如何使用Matplotlib绘制最常用的可视化,包括折线图、条形图、散点图和箱线图。可视化支持库Seaborn也非常有用。它基于Matplotlib开发,与Pandas高度集成。初级阶段,建议先掌握Matplotlib的基本绘图方法,不要对Seaborn了解太多。本文作者就如何使用Matplotlib绘制可视化图形编写了以下四篇教程。第1部分:Matplotlib基础图形第2部分:如何设置图形样式和颜色、线型、标签、颜色图等第3部分:注释、坐标轴、图形比例、坐标系第4部分:绘制复杂的可视化图形学完这个后四个教程,就算你已经掌握了Matplotlib的基本操作。友情提示,现在学习Matplotlib并不需要花太多时间,现在很多公司都在使用像Tableau或Qlik这样的BI工具来生成交互式可视化。鸟鸟云:你也可以参考DataCamp的Matplotlib备忘单,点击链接下载鸟鸟为你精心制作的高清中文版!左手SQL,右手Python现在,公司的数据都存储在数据库中。因此,数据分析师必须学会使用SQL从数据库中提取数据,然后在JupyterNotebook中对数据进行分析。SQL和Pandas是数据分析师的两个强大工具。有些简单的数据分析可以直接用SQL处理,有些用Pandas效率更高。就个人而言,我喜欢用SQL提取数据,然后用Pandas进行分析。现在很多公司都采用ModeAnalytics、Databricks等分析平台,可以很方便的应用Python和SQL进行数据分析。总之,数据分析师需要知道如何有效地使用SQL和Python。推荐使用SQLite来学习SQL的基础知识。它很容易上手,不需要复杂的配置。安装SQLite,查找示例CSV文件,并学习如何使用SQL和Python分析数据。这里有一篇文章可以指导你如何使用Python和SQL进行数据分析。使用SQLite在Python中使用数据库进行编程。在阅读这篇文章之前,最好了解SQL的基础知识。ModeAnalytics有一个很好的教程:IntroductiontoSQL。掌握SQL是每个数据分析师都必须具备的基本技能。只有掌握了SQL才能高效的从数据库中提取数据。鸟鸟云:这是大伟的广告。他的《跟着大伟学SQL:从基础到进阶,从刷题到面试》非常好。说实话比原作者推荐的文章实用多了?学习应用Python并实践基本的统计理论。大多数雄心勃勃的数据分析师从一开始就学习机器学习,但根本不在乎统计学的基础知识。不要犯这种低级错误,统计学是数据分析的支柱。另一方面,也不能只学习统计学的理论知识,而忽视了统计学的实际操作。这里所谓的统计实战,就是让数据分析师了解统计可以解决什么问题,以及如何应用统计来处理各种问题。以下是数据分析师必须精通的一些基本统计概念:抽样、频率分布、均值、中位数、众数、变异性度量、概率基础、显着性检验、标准差、z-score、置信区间和假设检验(包括A/B测试)。《面向数据科学家的实用统计学》这本书很好,可惜这本书的代码示例都是用R语言写的,Python爱好者可能会有点不适应,建议Python数据分析师看一下这本书的前四章。读完前四章,你就能理解上面提到的基本统计概念。本书后面几章主要讲机器学习,下一段会详细阐述这方面的内容。很多人推荐这本书《统计思维:程序员数学之概率统计(第2版)》。这本书是真正用Python来学习统计学的,但是本书的作者并没有使用StatsModels等标准的Python支持库来介绍统计学,而是使用了自己编写的函数。不具有普遍性,因此,我不推荐这本书。在学习了统计学的基础知识之后,建议您尝试学习用Python实现这些基本概念。StatsModels是一个Python支持库,现在很流行,官网的教程也不错,值得一看。还推荐的是Ga?lVaroquaux1的视频教程,介绍如何使用Python和StatsModels实施推理和探索性统计分析。使用Scikit-Learn进行机器学习Scikit-Learn是Python生态系统中最受欢迎的机器学习库。对于大多数数据分析师来说,首要目标是学习如何使用Scikit-Learn实现最常见的机器学习算法。首先按照AndrewNg在Coursera上的机器学习教程,只看第1、2、3、6、7、8周的视频。关于神经网络的内容这里略过,因为作为初学者,只关注一下就够了关于最常用的机器学习技能。学完这些内容,继续学习《机器学习实战:基于Scikit-Learn和TensorFlow 》。初学者应该只需要阅读本书的第一部分,大约300+页。这是市场上最好的实用机器学习书籍。傻鸟云:这里推荐Sean的译本《Scikit-Learn 与 TensorFlow 机器学习实用指南》完成本书所列的习题后,你就可以学习如何使用Python来实践吴恩达机器学习课程中描述的理论知识。结论最后一步是使用上述步骤中列出的知识来实践数据科学项目。建议大家找一组自己感兴趣的数据集,提出一些有趣的业务问题,然后通过分析来回答这些问题。但是,切记永远不要参与机器学习项目,例如泰坦尼克号或Iris,它们臭臭的街道。该线程列出了19个站点,用于查找数据科学项目的免费数据集,您可以查看。您可能喜欢的另一个实用数据科学项目是预测股市价格。通过雅虎财经,可以实时捕获股票数据,存储在SQL数据库中,然后可以使用机器学习来预测股票价格。如果你是从其他行业或职能转行做数据分析,建议你在工作中充分利用已有的业务知识。也欢迎大家关注我的微信公众号Pythontalk链接:https://pan.baidu.com/s/1VCrs...提取码:ky82?