最近有朋友问这个问题,觉得公开一下对大家有帮助。对于完全不了解Python并希望找到从零到一的最简单路径的人,这里有一个建议:1.在此处下载适用于您的操作系统的Python(https://www.continuum.io/downloads)Anaconda发行版版本3.X。这个预先捆绑的发行版将为您省去很多与安装相关的麻烦。预装了很多重要的数据分析包。2.安装后,测试它以确保默认的Python解释器是您刚刚安装的版本。这一点很重要,因为你的系统上可能安装了一个Python版本,但它并不包含Anaconda发行版中的所有内容,因此你需要确保新版本是默认版本。在Mac/Linux系统上,您可以在终端中输入whichpython,或者您可以运行Python解释器并确保版本与您下载的版本匹配。如果一切正常,则应在安装时将其设置为默认版本。如果不是,则必须停止并修复它。3.在命令解释器(Shell)中输入jupyternotebook命令,这将打开一个浏览器窗口。如果没有,打开浏览器,在地址栏输入:http://localhost:8888。打开此页面后,创建一个新的Python笔记本(Pythonnotebook)。4.点击http://www.kaggle.com/顶部菜单栏中的kernels,在新打开的页面的语言过滤器中选择Python(https://www.kaggle.com/kernels?language=Python).其中大部分是其他人用来使用Kaggle上免费提供的数据集分析或构建模型的Jupyter笔记本(JupyterNotebook)。寻找标题中带有EDA(探索性数据分析)之类内容的笔记本,而不是创建预测模型的笔记本。找一个你觉得有趣的,然后在你的笔记本上重现。注意:您可能会发现,当您重现某些分析时,您会遇到导入错误。这通常是因为分析师安装了Anaconda发行版中未包含的软件包。您最终需要学习如何与conda包管理器交互,这是您最终会遇到的许多兔子洞之一。通常,事情很简单,你只需要使用condainstall,但你需要找出正确的包名,有时,你还需要确认一些其他细节。有时你可能不得不使用pipinstall,你会在后面学习。高级库摘要以下是您会经常遇到的重要库的简要摘要:NumPy:具有许多用于科学计算的核心功能。由于它的内部操作是用C语言实现的,所以比用Python写的同样的函数要快很多。但它不是最用户友好的包。SciPy:与NumPy非常相似,但有更多方法从分布中抽样、计算测试统计数据等。MatPlotLib:主要绘图框架。不太讨人喜欢,但必备包。Seaborn:导入MatPlotLib包后导入Seaborn包,默认情况下,它会让你的绘图更漂亮。它也有一些独特的功能,但我发现它最酷的功能太慢了。Pandas:基本上是NumPy/SciPy的轻量级包装器,使它们更加用户友好。它非常适合与表格数据交互,在Pandas中称为DataFrame。也有一些对绘图功能的封装,这样可以在不使用MPL(Meta-ProgrammingLibrary,元编程库)的情况下快速实现绘图。我使用Pandas而不是其他工具来处理数据。Scikit-learn:包含大量有监督和无监督的机器学习算法,以及许多用于模型选择的测量工具。它是一个优秀的预处理库。这个预处理库可以进行主成分分析、编码分类变量等。Tips1.在Jupyternotebook中,在运行代码块(Cell)之前,在任意对象前打一个问号,它会帮你打开这个对象的文档。当您忘记所用功能的细节时,这非常方便。比如my_dataframe.apply会解释pandas.DataFrame对象中的apply方法,而这个my_dataframe就是pandas.DataFrame的一个实例。2.不管你用的是什么库,通常都需要一直查阅文档,所以在浏览器中保持打开就可以了。可选变量和细微差别太多了。3.当你遇到不可避免的排错时,stackoverflow可能已经有了问题的答案。4.接受你正在做一些你不完全理解的事情,或者你被不重要的细节所困扰的事实。有朝一日你可能需要了解虚拟环境,其实并没有那么难,只是有一些弯路给新手增加了不必要的痛苦。5.阅读别人的代码。这是最好的方式,可以学习规范,也是最好的做法。这是Kaggle内核可以帮助你的地方。Github还支持在浏览器中显示Jupyter笔记本。网上有很多例子可供参考和学习。