闻起来真香！墙裂推荐6款Python数据分析神器！！

时间：2023-03-26 16:00:22 Python

作者：东哥飞飞，数据爱好者Python数据科学大家好，我是东哥！每个人都熟悉使用Python处理数据。虽是套路操作，但套路之下还是有一些隐藏技巧的。在本文中，东哥分享了6个有趣又高效的操作，帮助大家提高效率。1.PandasProfilingPandasProfiling提供了数据的整体报告，是帮助我们理解数据的一个过程。它可以对Pandas中的数据框数据进行简单快速的探索性数据分析。事实上，Pandas中的df.describe()和df.info()函数也可以实现数据探索过程的第一步。但它们只提供了非常基本的数据概览。Pandas中的Profiling功能可以通过一行代码简单地显示大量信息，还可以生成交互式HTML报告。对于给定的数据集，Pandas中的profiling包计算以下统计量：PandasProfiling包计算的统计量包括直方图、众数、相关系数、分位数、描述性统计，其他信息包括类型、单变量值、缺失值等。您可以使用pip和conda进行安装，使用方法非常简单，如下：pipinstallpandas-profilingcondainstall-canacondapandas-profilingUsage使用titanicdataset来演示profiling功能。importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)除了导入库外，只需要一行代码就可以显示数据报告的详细信息，包括必要的图表。还可以使用以下代码将报告导出到交互式HTML文件中。profile=pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanicdataprofiling.html")其次，prettyprintpprint是Python中的一个内置模块。它能够以干净、可读和漂亮的格式打印任意数据结构。一个例子比较了print和pprint。#定义一个字典，testmy_dict={'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}print#正常printprint(my_dict)#输出结果如下：{'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}pprint#使用pprint输出importpprintpprint.pprint(my_dict)#输出结果如下：{'Student_ID':34,'Student_class':5,'Student_marks':{'English':88,'maths':92,'science':95,'social_science':65},'Student_name':'Tom'}可以清楚的看到pprint的优点之一是数据结构一目了然。3.PythonDebugger交互式调试器也是一个神奇的功能。如果在运行代码单元时发生错误，您可以在新行中键入%debug来运行它。这将打开一个交互式调试环境，自动转到错误发生的位置，并检查程序中分配的变量值并执行操作。要退出调试器，请按q。比如下面的例子。x=[1,2,3]y=2z=5result=y+zprint(result)result2=x+yprint(result2)应该可以看到x+y肯定会报错，因为两者不是类型相同，不能进行算术运算。然后我们输入%debug。%debug这时候会出现一个对话框让我们交互输入命令，比如我们可以如下操作。4.袖扣之前也介绍过。超级好用的数据探索可视化分析，用很少的代码就可以生成漂亮的可视化图形。这是一个例子。详情请参考这篇文章Python代码行获得炫酷可视化。您需要了解袖扣。cufflinks在plotly的基础上做了进一步的封装，方法统一，参数配置简单。其次，它还可以结合pandasdataframe自由灵活地画图。可谓是像pandas一样的可视化。比如下面的lins线图。importpandasaspdimportcufflinksascfimportnumpyasnpcf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])另一个例子是箱线图。cf.datagen.box(20).iplot(kind='box',legend=False)5.Pyforest这是一个可以让你偷懒的导入神器。可以提前在配置文件中写好要导入的三方库，这样每次编辑脚本的时候省去很多一开始导入各种库的麻烦，无疑是提高效率的利器之一对于有常用库和经常使用库的朋友。pyforest支持大多数流行的数据科学库，如pandas、numpy、matplotlib、seaborn、sklearn、tensorflow等，以及常用的辅助库，如os、sys、re、pickle等。这种用法非常方便经常自己调试，但是对于经常跨环境的比如共享脚本调试给他人用处不大，因为别人可能用不到。苦东哥之前也有详细介绍过。惊人的！这个Python库可以偷懒，跟导入说再见！看下面的操作就明白了。6.Jupyternotebook注释高亮此方法只适用于Jupyternotebook。当我们想要突出笔记，让笔记变得漂亮的时候，这个方法就很香了。笔记的高亮颜色根据不同的情况分为几种。前端同学一看就懂。不同之处在于每个颜色代码的类类型不同。其他的只需要在div标签中写上内容即可。看看下面的用法。蓝色代表信息Tip：使用蓝色框（alert-info）表示提示和注释。如果是注释，则不必包含“注释”一词。

黄色表示警告示例：黄色框通常用于包含附加示例或数学公式。

绿色表示成功仅在必要时使用绿色框，例如显示相关内容的链接。

红色代表危险避免红框很好，但可以用来提醒用户不要删除一些重要的代码等。