随着大数据的发展,越来越多的人谈论数据驱动,数据分析和挖掘越来越受到商业界的重视。作为数据分析领域发展最快的编程语言,python是数据科学入门的最佳选择。可以说,在21世纪,每个人都应该掌握编程和数据分析技能,才能更好地在大数据时代生存。Python在数据分析方面有着得天独厚的优势。首先,Python是一种高级编程语言,语法简单,可以编写复杂的分析代码;其次,Python开发社区非常强大,已经开源了很多优秀的数据科学第三方库,比如:pandas、numpy、matplotlib、sklearn、keras等。有了这些库,python在数据科学领域占据主导地位。这几天无意间在Github上发现了一个非常不错的数据科学备忘单。作者将python、pandas、matplotlib、sklearn、keras等工具的使用方法和功能总结在一张表格中,简洁易懂。下图是python数据科学流程概览:python数据科学流程,图片来源github,以下图片全部来自GitHub项目:https://github.com/FavioVazquez/ds-cheatsheetsPythonBasicsPandasBasicPandasAdvancedDataImportNumpyBasicJupyterNotebookMatplotlibVisualizationScipy-线性代数Seaborn可视化Bokeh可视化Keras深度学习Scikit-Learn机器学习Python数据可视化案例Pyspark-SQL基础Pyspark-RDD基础上面只展示了一些备忘录,还有更多的R数据科学,Python机器学习,Python深度学习,ETC。
