闻起来真香！推荐6款冷门的Python数据分析工具

时间：2023-03-26 10:57:02 Python

大家都很熟悉用Python处理数据。就是套路操作，但是套路之下还是有隐藏技巧的。在本文中，我将分享6个有趣且高效的操作，帮助您提高效率。1.PandasProfilingPandasProfiling提供了数据的整体报告，是帮助我们理解数据的一个过程。它可以对Pandas中的数据框数据进行简单快速的探索性数据分析。事实上，Pandas中的df.describe()和df.info()函数也可以实现数据探索过程的第一步。但它们只提供了非常基本的数据概览。Pandas中的Profiling功能可以通过一行代码简单地显示大量信息，还可以生成交互式HTML报告。对于给定的数据集，Pandas中的profiling包计算以下统计数据：PandasProfiling包计算的统计数据包括直方图、众数、相关系数、分位数、描述性统计，其他信息包括类型、单变量值、缺失值等。您可以用pip和conda安装，使用方法很简单，如下：importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)用法使用titanic数据集演示分析功能。importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)除了导入库外，只需要一行代码就可以显示数据报告的详细信息，包括必要的图表。还可以使用以下代码将报告导出到交互式HTML文件中。profile=pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanicdataprofiling.html")其次，prettyprintpprint是Python中的一个内置模块。它能够以干净、可读和漂亮的格式打印任意数据结构。一个例子比较了print和pprint。#定义一个字典，testmy_dict={'Student_id':34,'Student_name':'Tom','Student_Class':5,'Student_marks':{'maths':92,'social_Social_,'Social_:65,'English':88}}print#正常printprint(my_dict)#输出如下：{'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}pprint#使用pprint输出importpprintpprint.pprint(my_dict)#输出结果如下：{'Student_ID':34,'Student_class':5,'Student_marks':{'English':88,'social_science':92,'science':95,pprint'Social_science':65},'Student_name'可以看出Tom的优势'一清二楚'数据结构一目了然。最近花了几天时间整理了一个Python入门理论+实践进阶教程。这可能是您见过的最好的学习材料之一。独家打造，完全免费，需要的同学可以关注gzh【Python编程学习圈】，发送“学习资料”获取~3.PythonDebugger交互式调试器也是一个神奇的功能。如果在运行代码单元时发生错误，可以通过在新行中键入%debug来运行它。这将打开一个交互式调试环境，自动转到错误发生的位置，并检查程序中分配的变量值并执行操作。要退出调试器，请按q。比如下面的例子。x=[1,2,3]y=2z=5result=y+zprint(result)result2=x+yprint(result2)应该可以看到x+y肯定会报错，因为两者不是类型相同，不能进行算术运算。然后我们输入%debug。%debug这时候会出现一个对话框让我们交互输入命令，比如我们可以如下操作。4.Cufflinks这个库之前也介绍过。超级好用的数据探索可视化分析，用很少的代码就可以生成漂亮的可视化图形。举个例子：cufflinks在plotly的基础上做了进一步的封装，方法统一，参数配置简单。其次，它还可以结合pandasdataframe自由灵活地画图。可谓是“熊猫般的可视化”。比如下面的lins线图。importpandasaspdimportcufflinksascfimportnumpyasnpcf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])例如框型图片.cf.datagen.box(20).iplot(kind='box',legend=False)看着这张动态图，爱不释手，有没有！5.Pyforest是一款可以让你偷懒的导入神器。可以把要导入的三方库提前写在配置文件里，这样每次编辑脚本的时候可以省去很多一开始的导入。各种库，对于有常用库和固定库的朋友来说，无疑是提高效率的利器之一。pyforest支持大多数流行的数据科学库，如pandas、numpy、matplotlib、seaborn、sklearn、tensorflow等，以及常用的辅助库，如os、sys、re、pickle等。这种用法非常方便经常自己调试，但是对于经常跨环境的比如共享脚本调试给他人用处不大，因为别人可能用不到。看下面的操作就明白了：6.Jupyternotebook笔记高亮此方法只适用于Jupyternotebook。当我们想要突出笔记，让笔记变得漂亮的时候，这个方法就很香了。笔记的高亮颜色根据不同的情况分为几种。前端同学一看就懂。不同之处在于每个颜色代码的类类型不同。其他的只需要在div标签中写上内容即可。看看下面的用法。蓝色代表信息Tip：使用蓝色框（alert-info）表示提示和注释。如果是注释，则不必包含“注释”一词。

黄色表示警告示例：黄色方框通常用于包含额外的示例或数学公式。

绿色代表成功仅在必要时使用绿色方框，例如显示相关内容的链接。

红色代表危险避免红框很好，但可以用来提醒用户不要删除某些重要的代码部分等。