Python数据分析入门指南

时间：2023-03-15 23:17:55 科技观察

最近有朋友问这个问题，觉得公开一下对大家有帮助。对于完全不了解Python并希望找到从零到一的最简单路径的人，这里有一个建议：1.在此处下载适用于您的操作系统的Python(https://www.continuum.io/downloads)Anaconda发行版版本3.X。这个预先捆绑的发行版将为您省去很多与安装相关的麻烦。预装了很多重要的数据分析包。2.安装后，测试它以确保默认的Python解释器是您刚刚安装的版本。这一点很重要，因为你的系统上可能安装了一个Python版本，但它并不包含Anaconda发行版中的所有内容，因此你需要确保新版本是默认版本。在Mac/Linux系统上，您可以在终端中输入whichpython，或者您可以运行Python解释器并确保版本与您下载的版本匹配。如果一切正常，则应在安装时将其设置为默认版本。如果不是，则必须停止并修复它。3.在命令解释器（Shell）中输入jupyternotebook命令，这将打开一个浏览器窗口。如果没有，打开浏览器，在地址栏输入：http://localhost:8888。打开此页面后，创建一个新的Python笔记本（Pythonnotebook）。4.点击http://www.kaggle.com/顶部菜单栏中的kernels，在新打开的页面的语言过滤器中选择Python（https://www.kaggle.com/kernels?language=Python).其中大部分是其他人用来使用Kaggle上免费提供的数据集分析或构建模型的Jupyter笔记本（JupyterNotebook）。寻找标题中带有EDA（探索性数据分析）之类内容的笔记本，而不是创建预测模型的笔记本。找一个你觉得有趣的，然后在你的笔记本上重现。注意：您可能会发现，当您重现某些分析时，您会遇到导入错误。这通常是因为分析师安装了Anaconda发行版中未包含的软件包。您最终需要学习如何与conda包管理器交互，这是您最终会遇到的许多兔子洞之一。通常，事情很简单，你只需要使用condainstall，但你需要找出正确的包名，有时，你还需要确认一些其他细节。有时你可能不得不使用pipinstall，你会在后面学习。高级库摘要以下是您会经常遇到的重要库的简要摘要：NumPy：具有许多用于科学计算的核心功能。由于它的内部操作是用C语言实现的，所以比用Python写的同样的函数要快很多。但它不是最用户友好的包。SciPy：与NumPy非常相似，但有更多方法从分布中抽样、计算测试统计数据等。MatPlotLib：主要绘图框架。不太讨人喜欢，但必备包。Seaborn：导入MatPlotLib包后导入Seaborn包，默认情况下，它会让你的绘图更漂亮。它也有一些独特的功能，但我发现它最酷的功能太慢了。Pandas：基本上是NumPy/SciPy的轻量级包装器，使它们更加用户友好。它非常适合与表格数据交互，在Pandas中称为DataFrame。也有一些对绘图功能的封装，这样可以在不使用MPL（Meta-ProgrammingLibrary，元编程库）的情况下快速实现绘图。我使用Pandas而不是其他工具来处理数据。Scikit-learn：包含大量有监督和无监督的机器学习算法，以及许多用于模型选择的测量工具。它是一个优秀的预处理库。这个预处理库可以进行主成分分析、编码分类变量等。Tips1.在Jupyternotebook中，在运行代码块（Cell）之前，在任意对象前打一个问号，它会帮你打开这个对象的文档。当您忘记所用功能的细节时，这非常方便。比如my_dataframe.apply会解释pandas.DataFrame对象中的apply方法，而这个my_dataframe就是pandas.DataFrame的一个实例。2.不管你用的是什么库，通常都需要一直查阅文档，所以在浏览器中保持打开就可以了。可选变量和细微差别太多了。3.当你遇到不可避免的排错时，stackoverflow可能已经有了问题的答案。4.接受你正在做一些你不完全理解的事情，或者你被不重要的细节所困扰的事实。有朝一日你可能需要了解虚拟环境，其实并没有那么难，只是有一些弯路给新手增加了不必要的痛苦。5.阅读别人的代码。这是最好的方式，可以学习规范，也是最好的做法。这是Kaggle内核可以帮助你的地方。Github还支持在浏览器中显示Jupyter笔记本。网上有很多例子可供参考和学习。

上一篇：企业迫切需要关注勒索软件、人为错误导致的安全风险_0

下一篇：26亿参数，致远与清华开源大规模中文预训练模型

Python数据分析入门指南相关文章